戴瓊海
國務院參事
CAAI理事長
中國工程院院士
清華大學信息學院院長、教授
CAAI Fellow
人工智能未來的理解與創造
人類社會的發展就是不斷發現、理解與創造的過程。原始社會利用工具解決生活問題,發現現象并理解現象背后的規律,進而改造甚至創造這個世界,這就是人類社會發展的脈絡。
信息時代,艾克特25歲帶領團隊做出了第一個計算機系統。馮·諾依曼給出了現代計算機系統的新架構,并沿用至今。計算機推動了世界的數字化,包含兩個歷程,一個是符號化,二是模型化。數字是表達現象,模型化是對現象的理解過程。
1946年至今不到百年,計算機的發展為人類帶來了巨大的價值。
人工智能參與理解與改造世界
人工智能時代出現了三位深度學習的奠基人,也是2019年的圖靈獎獲得者。第一是Geoffrey Hinton(杰弗里•辛頓),反向傳播算法的代表人物;第二是Yann LeCun(楊立昆),卷積神經網絡的代表人物;第三是Yoshua Bengio(約書亞•本吉奧),序列概率模型的代表人物。
那么人工智能將如何參與理解和改造世界?王恩東院士曾有一問,人類怎么預測蛋白質的作用?諸如此類的復雜問題,靠人類的預測是無法做到的。以深度學習為代表的人工智能推動了例如科技、醫療、電子、金融等行業的快速發展,正如總書記說的,人工智能具有賦能作用很強的頭雁效應。
人工智能的局限性
同時,我們更應看到人工智能的局限性:其一,自動駕駛領域中人工智能的相關應用,已經凸顯了其在魯棒性、遷移性及能效比等方面的問題;其二,在醫療領域中的應用凸顯了人工智能算法自適應能力的局限,清華大學跟301醫院合作,用20萬條男性50歲的腦卒數據做訓練,但在做預測時發現對女性腦卒疾病的預測準確度并不高;其三,人工智能可解決一定的問題,但其工作原理還沒有明確的可解釋性。
還有一個經典案例——莫拉維克悖論。這臺波士頓動力的機器人能翻跟頭、跳舞和干很多復雜的事,但讓它把一個物體放到有障礙物的桌子上去,它做不到,這就是人工智能的問題所在——難以理解場景與對象間的關系,人工智能能干成年人干的活,但理解能力不如一歲的孩子。
新一代人工智能發展與腦科學
由此可見,人工智能還有很多瓶頸問題要解決。怎么解決呢,就需要追根溯源。我們發現,深度網絡的發展很大程度上受到了腦科學的啟發,僅僅是視覺聽覺部分腦功能的發現,就極大推進了人工智能的發展。如果有機會了解全腦,那會為人工智能帶來多大的變化?
我們來看深度學習和人類視覺的不同:生物視覺是宏觀和微觀回環交互的。比如畫畫首先畫輪廓,再畫細節;人眼看東西也是,先看全場景,再聚焦某個小場景、某個小目標,是一個回環交互的過程,即高級視覺的抽象和初級視覺的邊緣檢測存在回環交互。但計算機視覺只能從微觀到宏觀,不能從宏觀到微觀,這就給人工智能的困惑。舉個例子,一頭熊照片的碎片,人眼看到一點點邊緣時,就知道這是一頭熊;而人工智能缺乏宏觀與微觀的交互,只能通過不斷的學習才知道是一頭熊。
可見,對場景當中復雜關系的理解,是人工智能非常重要的部分。以前的人工智能針對小場景、少對象、簡單關系,用微觀圖像訓練一個模型,設計一個算法,讓它去理解大場景的時候就無能為力了。未來的人工智能應該具備對大場景、多對象、復雜關系的精準理解,這樣才能夠彌補現有人工智能的不足和發展。
腦科學與新一代人工智能發展
腦科學研究人類如何思考,圖靈獎關注的是機器如何思考,這是兩條平行線。人工智能專家往往將腦科學的部分現象和模型應用到人工智能里面去。這就給了我們一個啟發:能不能在腦科學和人工智能之間架起一個橋梁,這個橋梁就是認知計算。支撐這個橋梁的兩個橋墩,是多模態回路觀測以及多層次認知模型。通過解決微觀、宏觀的回環交互問題,來創造新一代人工智能。
該怎樣去做這些研究呢?通過觀測可以看到,小鼠有億級的神經元,恒河猴有百億的神經元,人類有千億級的神經元,神經元的多少代表了聰明的程度。斑馬魚只有80~100萬個神經元,它就可以工作。MIT去年的研究,構建了一款只有18個神經元的機器人,就能夠實現自動駕駛。
2016年美國IARPA做了MICrONS項目,稱為阿波羅腦計劃,花費一億美金,研究一立方毫米大腦皮層10萬個神經元是怎么連接的,參與項目的有CMU的Tai Sing Lee、哈佛大學的David Cox、貝勒醫學院的教授,這是個交叉的大項目。前兩位科學家都來過清華,專門討論10萬個神經元活動到底怎么構建,討論神經元活動連接和機器學習算法如何建立關系。
清華開發了RUSH-II(多維多尺度高分辨光學顯微成像系統)來觀察小鼠、大鼠全腦神經元的連接和它行為的變化。這是世界上最大視場,數據通量最高的高分辨光學顯微鏡,視場大小是一個平方厘米,分辨率達到0.4個微米,就是400納米,意味著不僅是神經元,用來在神經元之間傳遞信息的軸突和樹突的連接都可以看清楚。目前正在觀測獼猴的全腦神經元活動,這是更接近人類的靈長類動物。現在我們正在開展新的工作,將腦機和觀測儀器相結合,不但看神經元連接,還要看放電過程,這樣能夠揭示意識是如何轉移的。
新一代人工智能按照這樣的路徑,不僅要做微觀觀測,還要做宏觀觀測。將CT核磁共振、全腦高分辨率光學觀測、多模態觀測結合起來,才能理解神經元之間傳遞了什么信息。我們也在跟數學家討論,并構建新型的網絡模型,包含了記憶環路、生物機制、物理的熵平衡原理,來推導新型的神經網絡模型。我們需要考慮生物化學機制的發覺,數學物理機制的約束,短期記憶、長期記憶的過程,新一代神經網絡推理的自增強等等很多方面,這是我們從腦科學到人工智能做的事情。
大場景多對象智能理解
人工智能能夠拓展人類發現、理解與創造的能力。人眼的感知能力會受到空間、時間、波長等多個維度的限制。人工智能可以具備超越人類的感知能力,利用仿生光學復現鷹眼、貓眼、果蠅等的感知能力;同時大量的信息凸顯了人類自身的處理能力不足,必須交給機器來繼續感知。
人眼感知視覺的像素數不到6億,但是機器視覺可以達10億甚至百億像素,感知能力更強,帶來豐富的信息。對大場景范圍中多動態目標之間復雜關系的理解,就需要構建新一代人工智能模型,讓它看得全、看得清、看得準,要做一個大場景多對象數據平臺。但寬視場和高分辨的矛盾難以解決,這是物理上面臨的挑戰。因此我們提出了非結構化的概念和原型系統,很多相機長的不一樣,可以自調整,魯棒性非常高。以此為基礎構建數據平臺,是10億像素的大場景多對象數據視頻平臺PANDA,大家可以看到這是清華主樓門口,非常多的人群在邁步走,我們可以對這些對象實時識別和理解;這是馬拉松比賽中的萬人人臉識別,就是如何處理和解決大場景、多對象、復雜關系。目前在CVPR、ICCV還有2021全球人工智能技術大會上做了數據的公開并且比賽,有6千多支隊伍參加了這場比賽。剛才我還跟王恩東院士討論,我們是不是可以建一個大的數據平臺,來解決復雜場景中復雜關系的理解問題。
從感知智能怎樣走向認知智能,第一個要解決模型問題,第二個要解決數據問題。認知智能能夠促進大范圍動態場景時空關聯建模分析,支撐數字城市構建與理解,可以構建物理世界的孿生數字城市。目前我們正在杭州開展工作,做一個數字孿生的城市形態,希望為智慧城市做出貢獻。
總結
我們要從腦科學出發,來構建新一代人工智能的理論、方法和技術,同時構建一個大的數據平臺來驗證理論和模型的可行性。在未來,新一代人工智能需要大場景、多對象的數據平臺,大到能夠從物理城市構建孿生的數字城市,最后構建智慧城市,這樣一來,我們新一代的人工智能理論、模型和算法就初具雛形了。
來源:圖靈人工智能
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網站,如涉及版權和名譽問題,請及時與本站聯系,我們將及時做相應處理;
3、歡迎各位網友光臨閱覽,文明上網,依法守規,IP可查。
作者 相關信息
內容 相關信息
? 昆侖專題 ?
? 高端精神 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 我為中國夢獻一策 ?
? 國資國企改革 ?
? 雄安新區建設 ?
? 黨要管黨 從嚴治黨 ?
圖片新聞