您好!今天是:2025年-4月22日-星期二
【AlphaGo戰勝李世石,靠的是窮舉的計算能力?不,是靠“深度學習”了一天就能下300萬盤棋積累下的經驗。李德毅老師的團隊也正在以算法+大數據的思路,打造“主要靠經驗”的人工智能“老司機”。他在4月22日的全球人工智能技術大會所作的《人工智能在奔跑》演講,二十二次說到“記憶”這個詞?!?/span>
各位同行,我很高興下午做第一個發言。我的題目有點大,叫人工智能在奔跑。因為人工智能經過60年的歷練已經到了可以奔跑的時候了,我想講三個問題。先講講圍棋腦,然后再講講智能車駕駛腦,然后再講講決策腦,作為人腦最重要的部分怎么做決策。
先講講圍棋,圍棋其實是中國的文化遺產,中國的圍棋在全世界很有名。就跟中國的乒乓球一樣有名,但乒乓球是舶來品,圍棋是我們中國人的。現在圍棋最好的是中日韓。圍棋是誰把誰圍住了誰就贏,所以我出了一個題目,叫做形象思維的自動化。下象棋大家都知道主要是吃子,有大小之分。圍棋就不一樣了,圍棋的子沒有大小之分,象棋是八分八的棋盤。我想特別回顧一下歷史,在2011年9月6號,我們中國人工智能學會組織了九路圍棋,81個格子,讓北郵的圍棋程序Lingo對俞斌,讓俞斌讓兩個子給Lingo,他說不好贏。在2011年的時候包括中央電視臺也播了,俞斌是我們中國圍棋隊總教練,我們的圍棋在世界上可以說是穩拿的,兩盤都敗給了Lingo,當時認為兩三年九路棋盤是有希望的。這是五年前的事情,只不過我們中國人工智能學會影響不那么大,全世界不一定都感知到了。
到了2016年3月9號,李世石下了19路圍棋,而且最后4:1輸了。為什么?難在哪里?圍棋難以鎖定下一個目標,具有更大的不確定性。我有一篇著作叫做“不確定性人工智能”。圍棋的不確定性比象棋大很多,象棋更注重邏輯思維,圍棋在某個狀態下應對的步驟比象棋多很多,既有邏輯思維也更注重形象思維,更大局觀。
我們看看在《自然》雜志上,20個作者寫了AlphaGo的程序,他們采取的辦法。這篇文章里提到一個特定的圍棋棋局,有很多的計算量和推理量。我們中國人有一句話叫做千古無同局,所以歷來把它認為是給人工智能一個挑戰的很好的里程碑。那么我們仔細分析一下,AlphaGo為什么贏?這是我今天要報告的重點。它突破了傳統的程序,構建了兩道模仿人類思維的深度卷積神經網絡。第一個網絡主要擔當棋局態勢的評估,第二個網絡是如何落子,這是人機大戰,如果你知道每一步怎么下的,你會得到一個結論,那就是沒有看到有天外來客下出不食人間煙火的套路。這句話告訴大家AlphaGo的學習能力很強,因為它是我們圍棋手教他的。
所以在全世界一片振動之后,我提出四個問題請大家思考一下。
第一個問題,如果讓AlphaGo或李世石再下一次復盤,讓李世石原來怎么下還怎么下,請問AlphaGo能不能復盤,能下出跟原來一樣的嗎?它是以不確定性為強的,能不能重復?這是第一個問題。
第二個問題,在比賽之前以及比賽之后,這個程序變了沒有?還是原來的程序嗎?我們手機壞了實在不行重新啟動,還是原來的。AlphaGo的程序還是原來的嗎?它跟李世石下了五盤棋學到了什么東西。
第三個問題,跟李世石下棋之前,AlphaGo跟別人下過,如果用相同的版本對比的話結局如何?還有沒有意義?能不能提高AlphaGo的水平。
第四個問題,讓AlphaGo從此以后不再跟高棋手下棋,AlphaGo的程序水平會不會降低?
我覺得這幾個問題可以讓我們人工智能工作者稍微多想一下。其實在我們眼里李世石只是充當了一次人工智能發展成果的測試員而已,他對我們來說只是我們測程序的一次科學實驗而已,是一個人與一群人的對決,包括棋類高手又包括人工智能高手。你們看deepmind的作者,他們不但是人工智能高手,也是圍棋高手,是兩個領域的能人,這個不容易的。所以我們經常講什么叫人機大戰,人機大戰實際上是人在前面機器在后面,或機器在前面人在后面的一場對決而已。因此從統計學上來看人機大戰總的結局應該是5:5。
下面講AlphaGo程序還有很多的不足,比如說它下棋的時候還要有一個助理員拿棋子,它的手還沒做出來,它沒有眼睛,沒有感受和行為能力。這個機器人一定要有它的感知能力、有行為能力,而它只有思考能力是不夠的。再一個AlphaGo程序目前還沒有情緒、沒有情感,不能現場分析對手的心理狀態,跟誰下都是一回事,不能夠現場和對手展開心理戰,缺少交互認知的能力。我想兩條AlphaGo程序的作者也一定會同意的。
AlphaGo對戰李世石
AlphaGo的成功用了深度卷積神經網絡,但是這個卷積神經網絡有四個毛病。
第一,有太多的學習參數,就是今天上午各位講的權重系數,這些系數的確定具有隨意性。包括有多少個卷積和,怎么卷,怎么下載,這里面隨意性太大。所以我們發現他們發表的文章我們做的時候恢復不了,文章主要的東西沒寫進去。
第二,你在學習的過程當中不能進行你的數據樣本很大,就能保證算法是正確的,這個事情很糟糕。
第三,現在用的卷積神經網絡更多的還是前面的,這是跟人類學習不一樣的。
第四,現在用的對樣本的學習是沒有累積性的,我們人是有累積性的。
因此這四個缺陷是我們人工智能要想辦法努力克服的。我個人認為深度學習不管是卷積神經網絡還是其他的神經網絡學習方法,都不能是人工智能的終結者。尤其重要的是我們看到的人都是個性的,而AlphaGo程序目前還沒有定位為個性的,我們需要的張三李四,世界上并不存在一個人類,人類是我們人的總稱而已。
下面第二個議題,駕駛腦。因為圍棋實際上在我看來應該是個圍住和不圍住的問題,在統計學里面是拓撲學的問題,充其量AlphaGo是拓撲學動力學的問題,如果把這個問題引入到其他領域要很復雜。比如說開車需要駕駛認知,汽車發明130多年了,走的正好是跟圍棋相反的道路。先走的是行為能力,不管什么時候這個汽車都要能跑,這個很重要,這是汽車工業的驕傲。我們做了幾百輛車還覺得太少,你能跑惡劣環境嗎?所以在汽車上配置感知零部件,實現自動駕駛,是在車輛動力學和人工智能成立的基礎上?,F在我們做自動駕駛,我們覺得自動還不行,當你買了這個自動駕駛車回來之后,我會告訴你,你會不滿意的,因為它時不時就說對不起,你請你轉入人工駕駛。這次長安的車很多都要人工干預,這里面缺少了一個問題,光感知是不夠的,一定要有認知腦。因此和圍棋腦相反,我們現在走的是現有行為能力,感知能力,目前汽車還需要有認知能力,那就變成了機器人。我們現在希望做一個機器人,是汽車上比較集中的目標。說得再挑戰一點,我們希望做一個飆車機器人,假如飆車機器人跑的比人類快,那就更加全面了,就不單是腦子的問題,還有感知和認知的問題了。
現在智能駕駛系統很煩惱,因為是離線輔助駕駛。我寫了一個報告,叫最后的繁榮和轉型之路。因為你做了那么多的中控設備,顯示設備,將來汽車要自己會自駕駛了,這個行業,這個工業怎么辦?轉向自動駕駛。但是我剛才講了目前的自動駕駛是局部時段,局部區域,能滿足駕駛的范圍很小。自駕駛說得更多一點是無人駕駛,或者自助駕駛。我們昨天科技部進行了重要的答辯,用了以人為本的人機系統共享,不是單純的由人駕駛,也不是單純的由馬駕駛,而是共同的協調駕駛。
既然需要一個駕駛腦,我們就要考慮人腦有哪些功能,需要駕駛腦來承擔。我們認為記憶一點不亞于計算,尤其是長期記憶、短期記憶,或者瞬間記憶,這個形態是不一樣的,數據量也是不同的。現在所有廠家做的圖像識別,基本上還是在瞬間記憶階段。我們這個課題組不一樣,我們把它做到行政化后面去了,這就是我們的特長。
把人腦中動機、學習和思維、性格、記憶,都用機器來實現,就可以做一個機器的駕駛腦。情緒注意力不集中就不要進來了,我們希望個性化還是要進來的。這樣的情況下我們有了思想,既能有感知信息,把感知信息合并到一起大概三大類。第一塊是路網文件,精確到10厘米左右。第二個是雷達通道,航天雷達、超聲雷達,都叫雷道通道,也是個千里眼。再一個就是攝像頭。這三個通道就好像人的感知器官一樣,很重要,但是哪一路都有不完善的地方。它們都在完成定位、路權檢測和導航的能力。定位就是我在什么地方,路權檢測就是周圍有什么,導航就是下一步怎么走。定位里面最重要的就是同步定位和映射,這個要做得好智能駕駛就好了,現在最難的就是這塊。周圍有什么我們用我們的行政化的方法,此時此刻我周圍多大的空間是我可以使用的。下一步怎么做就是方向盤了。
我們的課題組不僅做前面的視覺的感知深度神經網絡學習,我們把這些叫做先視后覺。尤其要感興趣的是視而不覺,邊視邊覺和先覺后視。我多次講駕駛腦對路邊的美女是不用看的,我們強調要記住當前的感知,已有的認知對當前的感知起重要的作用。因此我們在駕駛腦里面有視圖儀表,通過長期的記憶,工作記憶和瞬間記憶,來記憶不同時間了解交通的信息,最后形成一個動作的執行,這就是我們說的感知、認知、行動,再感知、再認知,再行動。
自動駕駛的未來圖景
其實跟下圍棋相比,駕駛活動更多的是技巧,是記憶或經驗。而不是知識、推理和計算。駕駛腦的差異反映個人智力和運動能力的差異,一個孩子從小就看得出他有沒有跳芭蕾舞的天賦,其實開車有是大同小異的。為什么兩口子開到最后發現一個人更會開,他的小腦比另外一個人要發達一點。
我們這十年用了很多的時間讓我們的程序員一邊開車,一邊調程序,調的很辛苦。在過程當中我們慢慢的悟出了一個真理,真正能夠叫機器人開車的不應該是程序員,應該是駕駛員。有今天的駕駛員長期互動,已經把車同化為人體的一部分,成為與身體無縫對接的真實外延。因此機器人駕駛腦在駕駛員開車時形成一個腦和機器融合在一起的,實現一個夢想。這是我們最近幾年的追求。
我們原來的駕駛腦里面有一個工作總線,還有調試總線,現在我們把調試總線開展為自學習總線,完成統計學習和進化學習,研發有個性的智能車。一旦當前的認知與過去經歷的記憶進行了混合對比,駕駛腦便能對不確定的未來做出合適的決策,完成大腦的創造性,運動的靈巧性,以及對車無窮無盡的過程。這個過程太重要了。這個自學習非常有意義的是和AlphaGo圍棋的深度學習網絡非常一致,是一個評估網。我們這個叫自學習操作網。我們將駕駛員對油門、制動、方向盤的操控量增加為一個認知箭頭,箭頭拐彎多少表示你拐彎多少,油門和剎車只能取其中之一,用兩個顏色表示出來。因此我們把駕駛員的動作變成一個箭頭,通過一個駕駛態勢圖圖像化。這樣就變成了人工駕駛的時候經常出現的問題,如果能通過深度學習形成一個駕駛記憶的話就好了。當然人的學習一個很重要的是在錯誤中學習。我們同樣把一次次的駕駛事故也形成了事故記憶。駕駛腦利用搜索配備引擎,實時在記憶當中搜索,自己找到或者推理求出符合當前駕駛態勢的認知箭頭,學以致用,形成控制指令的輸出,克服了宏觀認知的形式化困難,細分了約束期間,通過大量微觀認知的形式化,降低了形式化的難度,縮小了在線推理范圍。我的報告值得的就是這四句話,克服宏觀的形式化困難,通過大量微觀的形式化降低難度,縮小推理范圍。
比如說現在有一個有經驗的駕駛員在開車,人工駕駛。他通過他的視覺形成對他駕駛態勢的判斷。而在這同時我們也要感知系統也在工作,而且形式化駕駛態勢圖。駕駛員的操作他的態勢是在他的頭腦里面,但是他的操作我是能感受出來的,我就畫出一個箭頭,把當前的駕駛態勢和駕駛員操作的結果變成一個圖,叫做駕駛態勢人質箭頭圖堆。如果從首都機場到天安門30分鐘能到,我用36000個認知箭頭變成36000個圖堆,用深度學習加成了駕駛記憶。下次開車的時候人沒有了,機器在開車,機器根據當時感覺到的駕駛態勢,通過搜索來解決推理問題,形成了一個駕駛認知的箭頭輸出。然后再把這個箭頭變成方向盤,這就是我們的高招。這就是我們最驕傲的地方。
最近我們已經把這個大數據都采來了,我們現在正在做深度學習,如果有哪位跟我們合作我們很高興,可以把我們的大數據庫給你,我們一起來做這個深度學習。
通過深度學習實現自學習,也就是統計學習或進化學習。當然一個人開車過程當中遇到了幾次小磨小蹭,甚至遇到幾次比較大的事故你終身難忘。機器人要吸取教訓,同樣我們在這樣的情況下,采用這樣的箭頭,造成的事故形成一個事故記憶,下次機器人開車的時候又遇到了這個態勢圖,找到了事故處置的時候怎么造成事故的,這個箭頭是萬萬不可用的,于是我們就有了事故指引。如果你的車上有事故記憶,當你做錯誤操作的時候能切斷你,你肯定是會高興的。同時怎么做到的呢?一個就是駕駛態勢工作總線,一個是自學習總線,基本上是感知板塊、認知板塊、交互板塊、自學習板塊,但是它們之間并不亂,尤其是工作總線帶寬我必須保證。而學習總線上我們就可以學到這個圖的方法,形成駕駛記憶。然后把這個對汽車的操作放到汽車的線上去。
駕駛腦成功的關鍵是駕駛認知的形式化,如果說我們做得比較好的話還能拿個冠軍,我認為我們的工作起了核心的作用。深度學習站在全球人工智能的風口,普遍把卷積神經網絡用于點云圖樣式,感知架構的自學習。而我們卻另辟蹊徑,把卷積神經網絡用于形式化之后的駕駛態勢圖,這就大大的減少了數據量,大大的簡化了圖里的實效,我們認為這里還有一點創新之處?;仡櫴畮啄陙砦覀儏⒓拥谋荣愒浢曰筮^、迷盲過,試來試去,換車、換平臺、換電源、換模塊。通過多車交叉檢驗,尤其是2015年我們的聯合課題組實現了交叉驗證、常態實驗。我的模塊在你的車上試,你的人到我的組里來。形成了全新的設計圖,這是北京到天津的,這是18米繞樁的。還有無人駕駛的,我們是全程無人工干預,到開封不到40公里的過程。我們現在正在做宇通大客車在場區內部的通勤。
下面我們講講第三個內容,決策腦。人在認知方面最終要做的不管多么復雜,其實就是做還是不做,是決策的問題。無論你有多少知識,多快的推理,多高的情商,多么善于溝通,最終反映出來的是選擇,所以《哈利·波特》里有一句話,決定你成功的,不是你的能力,而是你的選擇歸根到底就是決策的能力。生命科學家要把我們的大腦搞清楚,有多種的組織組成。通過核磁共振將人腦分為166個區加以研究,只研究大腦某一部分的時代離我們越來越遠,我們更重要的是研究它們之間的關聯。生物學家們企圖造出一個人工的干細胞,我認為挑戰也是蠻強的。我們物理學家跟生命科學家有點不同,我們因為對生命科學了解的不如人家深,但是我們非常關注腦認知的七個大塊,其中好幾個都是微觀、宏觀,進行神明科學的研究。而我們這些搞理工和IT的人,覺得應該用物理學的方法,語言、知識、文明、傳承,都是后天學習的。包括駕駛在內的所有的技巧,他們的原材料都來自客觀世界,因此我們要研究人腦成長和認知的社會性。給我們提供了很多的方法,我們如何在信號,甚至在符號,甚至在行為,來研究人的智能是很重要的。多年來我們創造了定義概念和定量數據,我們提出過云模型,數據場,今天我們又提出了駕駛腦,還有其他行業專門支持的功能腦。我們認為這些方法解決不確定性因素是最有效的。需要我們學科的交叉融合。但是生命科學和物理學都是很有個性的學科,要把它交叉進來也很難。
我們強調記憶認知、計算認知、交互認知,三位一體。其實記憶有時候比知識更重要。廣義知識驅動的智能難在形式化,碎片化和狹小區間形成的形式化相對比較容易,在認知過程當中人腦神經的交互也是不或缺的。因此我們提出多層次的認知網絡,客觀技術的局限性。60年過去了,我們設計了一個logo來紀念人工智能60年的光輝歷程,我們認為人工智能奔跑的時代是一步一步走過來的,尤其是在今天移動互聯網的支撐下,人工智能走到了人們關注的焦點上,如果說人類圍棋手一生也許只能參賽1000盤棋,而AlphaGo一天就能下300萬盤棋。從這個意義上講計算機的圍棋腦的智能程度超過人。因此我主張對人工智能要有點敬畏之心,不要說它是弱智能,我覺得還是要有一點敬畏之心。圍棋本質上是動力學的問題,假如把棋盤擴大一倍,變成38道,哪個贏得快,我作為程序員我覺得圍棋腦快,人可能覺得腦子不夠用。
我們人工智能學會組織的圍棋比賽是九路,當時只是一個電腦筆記本,今天人家用了170個GPU,1200個CPU來比的。駕駛員一天開八小時車,他不可能永不疲勞的跑。而駕駛腦可以做到,駕駛通過自學習可以會聚多人的駕駛認知,遠遠高于單個駕駛員駕駛技巧的速度。我對北京的道路很熟悉,但是我還可以把它變成天津的道路,一個人要既熟悉北京的所有道路又熟悉天津的,不是一天的事情,但機器腦完成的比較快。所以智能很重要,可以戰勝人類的優秀個體,我是這樣看的。就是駕駛腦開得比你好,是可能的。人工智能的核心不僅僅是算法,這是我們傳統的看法,傳統的認為什么叫軟件,等于程序加數據,認為程序是最重要的,把數據放到程序里,形成人工智能。今天在大數據的情況下更重要的是學習,要讓程序放到數據里面去,形成數據驅動的人工智能,用記憶認知、技術認知和交互認知形成決策腦,展現出當前人工智能井噴的局面和燦爛的前景。
我們可以構筑駕駛腦、圍棋腦、翻譯腦等等,哪怕不具有組織機構,但在宏觀上并不亞于個別人的情商和智商。用人工智能構建千千萬萬的認知腦,并通過移動互聯網、云計算,就可以倒逼一腦萬用的人造生物腦。這就是說為什么我們對人工智能要有一點敬畏之心。
在我們的星球上圍棋和汽車都是人類的發明,而且我們要迎來機器人新人類,圍棋機器人要發展成為人類的伙伴,他們有智慧,有個性,有行為能力,甚至還有情感。機器人給人類帶來的影響將遠遠超過計算機和互聯網在過去幾十年間,已經對世界造成的改變。人類的發展史,就是人要學會運用工具,制造共聚合發明機器的歷史,科技不停步,人類永不滿足。智能手機可以成為你的助理,曾經的很多工作崗位都將被機器人替代,但同時又自然的涌現出新的工作崗位,人類將更加優雅智慧的生活。人類善于更好的調教幫助機器人,利用機器人的優勢,彌補機器人的不足,用新的機器人淘汰舊的機器人。反過來人類也找到了利用機器人提升人類的智慧和能力和方法。因此機器人一定會讓人類自身更智能,各色各樣的機器人為我們迎來了人與機器人共舞的新時代,人類始終是領舞者,謝謝大家。
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網站,如涉及版權和名譽問題,請及時與本站聯系,我們將及時做相應處理;
3、歡迎各位網友光臨閱覽,文明上網,依法守規,IP可查。
內容 相關信息
? 昆侖專題 ?
? 十九大報告深度談 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 我為中國夢獻一策 ?
? 國資國企改革 ?
? 雄安新區建設 ?
? 黨要管黨 從嚴治黨 ?
圖片新聞