人工智能分為幾個層面,首先是基礎層,要有大數(shù)據(jù)云計算,因為你數(shù)據(jù)量大的話,要放到云端去處理,大數(shù)據(jù)、云計算、GPU/FPGA等硬件加速、新形態(tài)神經(jīng)網(wǎng)絡芯片等計算能力提供商。在技術層就是做機器學習、深度學習、增強學習等各種算法。應用層就是各種各樣的各方面的應用,智能廣告、智能診斷、自動寫作、身份識別、智能投資顧問、智能助理、無人車、機器人等場景應用。
講講到底什么是大數(shù)據(jù),每天聽別人講數(shù)據(jù)的重要性,什么叫大數(shù)據(jù)?從數(shù)據(jù)定義上來講,如果說它是用傳統(tǒng)統(tǒng)計的方法處理結構化的數(shù)據(jù)量再大也不是大數(shù)據(jù),大數(shù)據(jù)的概念應該是說它的來源是多元,它的結構是異構,是非結構化的數(shù)據(jù),它整個數(shù)據(jù)量不僅僅是大,而且是雜亂無章,按照信息論來說,熵大,信息量非常大,這才是大數(shù)據(jù)。大數(shù)據(jù)里面最重要的是相關性和因果性,很多人包括一些科學家,有些匪夷所思,非常模糊的對于大數(shù)據(jù)挖掘相關性的神奇能力的表述,這是不對的,僅僅挖掘出相關性不夠,還要分析因果性,A推出B或者B推出A,或者AB互相推出。你僅僅利用數(shù)據(jù)分析計算出他們之間是相關的,他們之間有某種模糊的不確定的聯(lián)系是不夠的。
比如說A和B,你可以挖掘出來A和B具有某種相關性,這是不夠的。這種隱約的曖昧的相關性在關鍵的交易場景中,你是無法用它來做參考的。我需要在股票交易當中獲利,僅僅相關性是無法用股票交易算法做套利的。在做人工智能數(shù)據(jù)分析計算里面有很多種算法,我想說的是在很多種算法里面有的算法是在特定領域里面有用的,我先說一下算法,我的背景是計算理論邏輯的背景,我非常強調對于任何一個行業(yè)技術,從邏輯和理論根源的角度去分析挖掘里面的痛點。如果說你用機器學習或者神經(jīng)元網(wǎng)絡,你能不能計算出歸納偏置,也就是bias,如果不能夠就意味著你的算法是無法獲知確定性的黑盒子算法,雖然你的算法有用但是你沒有辦法證明你的算法是正確的,只有貝葉斯統(tǒng)計才是能夠計算出歸納偏置的??茖W的判斷標準是什么,貝葉斯里面還有另外一種分層貝葉斯,現(xiàn)在流行的深度學習是神經(jīng)元網(wǎng)絡里面分成多層,貝葉斯網(wǎng)絡也可以屬于多層,而且因為貝葉斯網(wǎng)絡能夠用來挖掘數(shù)據(jù)背后隱含的關系,那么貝葉斯網(wǎng)絡可以做出一些深度學習做不了的事情。比如說大規(guī)模傳染病如SARS的傳播節(jié)點的挖掘,比如說像SARS,禽流感,如果從北京出發(fā),中間經(jīng)過了武漢、鄭州、濟南,但是有些城市的傳播節(jié)點從傳染病的統(tǒng)計信息圖和數(shù)據(jù)里面看是沒有的,這種情況下只有用分層貝葉斯網(wǎng)絡,可以挖掘出傳染病隱藏的傳播節(jié)點,可以挖掘出隱藏節(jié)點間的關系,而且可以挖掘出隱藏節(jié)點后面的下一層節(jié)點,根據(jù)傳染病統(tǒng)計的數(shù)據(jù),只有用一種方法可以挖掘出隱含的關系和節(jié)點,其他的深度學習機器學習的方法全都不管用。
剛才說到概率圖,我們知道現(xiàn)在業(yè)界在自然語言理解的研究里面機器學習用得最好,就是它能用大量的數(shù)據(jù)來做機器翻譯,但是僅僅利用傳統(tǒng)的機器翻譯,傳統(tǒng)的這種統(tǒng)計學意義上的這種方法去尋找大規(guī)模數(shù)據(jù)上的對應關系,這是不夠的。學者們最新的研究引用概率圖計算去做自然語言理解和做機器學習,能夠取得更好的翻譯效果。
最近有一個著名的爭論,深度學習是在顛覆一切。意思是說有了深度學習什么都能干,這里面有另外的問題,煉金術好還是化學好,如果不能非常明確的確定證明它的結論正確性,不能夠證明它的結果的確定性,那么它就是一種煉金術,煉金術后面每一個元素是怎么反應的,它們反應的化學規(guī)律揭示清楚,這就是科學。什么叫科學,科學的唯一的判定標準就是確定性,是否具有確定性,如果說你發(fā)現(xiàn)某一條規(guī)律,繁雜無章的這種狀況面前,具有某種確定性,只有這種規(guī)律是確定的,你所發(fā)現(xiàn)的規(guī)律是真的科學的,如果說不確定,那就不是科學了。數(shù)據(jù)科學是否成立?現(xiàn)在大家都在熱炒,全世界都在炒作,大數(shù)據(jù)人工智能數(shù)據(jù)科學,如果說數(shù)據(jù)科學的判斷標準僅僅是用統(tǒng)計學的這種方法,無法確定正確性與否的方法來判斷的話,那就不是一個科學,他僅僅一個統(tǒng)計學結果,統(tǒng)計學在科學上來講,統(tǒng)計學并不被所有的學者認為是科學,因為它里面有隨機性。
我們現(xiàn)在說大數(shù)據(jù)小數(shù)據(jù)和零數(shù)據(jù),現(xiàn)在很多公司宣傳說人工智能發(fā)展的關鍵是是否擁有大數(shù)據(jù),這句話是錯的。我們擁有大數(shù)據(jù)就有大的優(yōu)勢,沒有數(shù)據(jù)就無法發(fā)展人工智能,這句話是錯的。阿爾法零在規(guī)則確定信息完全的情況下,是不需要數(shù)據(jù)的。不需要任何數(shù)據(jù),就可以去寫這個程序,在阿爾法狗開始研究的時候,系統(tǒng)需要用棋手對弈的大量歷史數(shù)據(jù)去學習,那是因為當時的研究者還沒有意識到這種場景下的道理,對于規(guī)則明確信息完全的這樣的博弈場景,比如說像圍棋、象棋,這里面不需要數(shù)據(jù)。有人說谷歌的阿爾法狗沒有什么了不起的,人的智慧學得更快,圍棋的維數(shù)一改變,谷歌的下棋程序就不能使用了,這是錯的,無論圍棋多少維,人工智能程序都應該可以自適應,應該可以完全戰(zhàn)勝人類沒有問題。在規(guī)則確定,信息不完全的情況下,像麻將,軍棋,德州撲克,信息不完全的情況下,人工智能程序處理是很難的,需要計算博弈的勝負的概率,比前面的圍棋難很多。我們在做人工智能研究的時候,要看具體的博弈場景,有的場景下即便沒有那么多的數(shù)據(jù),只要我們搞清楚數(shù)據(jù)背后的原理,可以利用對抗性網(wǎng)絡讓系統(tǒng)自己生成數(shù)據(jù),去在策略網(wǎng)絡和價值網(wǎng)絡上訓練。
很多人都忽悠說大數(shù)據(jù)是信息時代的石油,大數(shù)據(jù)是不是信息時代的石油?石油是不是可替代性的?如果說大數(shù)據(jù)在每一個場景都是必然的,需要的,那他就是石油,如果說很多應用場景不同的情況下,重要性不是一概而論的,那就不是信息時代的石油。小數(shù)據(jù)小樣本學習才是人工智能真正的重點,為什么?我們可以觀察嬰兒,嬰兒在學習新的知識的時候,他沒有通過大數(shù)據(jù)去學習,他很簡單的只要見過幾次就認識了,這就是小樣本學習。為什么人具有小樣本學習的能力,機器不具備這種小樣本的學習能力,這里面最根本的原因是人是經(jīng)過幾十億年遺傳進化而來最高等的生物,人的生理結構,人的遺傳信息里面就包含了某些先天性的知識,而且人具有常識,具有對于自然界和社會的常識,常識才是人工智能發(fā)展的最核心和最根本的問題,也是人工智能發(fā)展最大的困難。怎么樣讓人工智能對常識獲得認識和理解?常識的構建,常識的范圍太廣了,我們對于整個社會,對于整個物理世界的所有認識,都叫做常識,也就意味著要想建立常識,終極來講對客觀世界包括物理世界和人類社會的所有知識整合起來,來建立這樣一個開放性的無所不包的知識模型。
開放性的問題就是如果說你要建立一個通用的人工智能對話機器人,我們往往發(fā)現(xiàn)答非所問,比如說像小冰,聊兩句之后,答非所問,不知所云。像機器人助手在行業(yè)應用里面,結合具體的行業(yè)知識去做機器人行業(yè)問答助手是比較好的。
最新的人工智能的科研方向就是把傳統(tǒng)的符號邏輯,我們稱之為符號主義,專家系統(tǒng)和規(guī)則系統(tǒng)跟連接主義,機器學習神經(jīng)元網(wǎng)絡,把兩種方法結合起來去應用。比如說google deepmind研發(fā)的神經(jīng)元網(wǎng)絡圖靈機,學習出來一個新的圖靈機,可以用來做簡單的推理,用于一些大數(shù)據(jù)里面的規(guī)則挖掘和推理有不錯的效果。再一個比如說有的朋友在做自然語言理解,就是讓機器理解人的語言,他們是把計算語言學規(guī)則系統(tǒng)與機器學習相結合,他們做得效果非常好。曾經(jīng)有一個笑話說機器學習興起來后,計算語言學家就成了自然語言理解的發(fā)展障礙,開除一個就進步一些,計算語言學家是自然語言理解發(fā)展的障礙嗎?不對。計算語言學被拋棄了一段時間之后,當自然語言理解遇到瓶頸的時候,機器學習根自然語言學的規(guī)則系統(tǒng)結合起來,這是目前最新的研究趨勢和方向,取得了很好的效果。
機器人里面的眼睛是用機器視覺圖像處理,聽聲音回答用得是語音識別或者語音合成,機器人只有運動狀態(tài)控制是跟人工智能有關的,但是它是一個典型的機器證明問題,這里面機器人有很多的關節(jié),要計算每個關節(jié)的狀態(tài)平衡態(tài),是多元的非線性代數(shù)連續(xù)方程組,典型的機器證明問題,三角化后求解一個多項式解。所以大家如果認為機器人代表了人工智能那是錯的。
我們再來說一下深度學習和機器學習及控制系統(tǒng)之間的區(qū)別,這一輪人工智能火爆起來就是因為CNN用來處理人臉識別的圖象,CNN最早的是模擬貓的眼睛處理圖像的視覺相關部分的神經(jīng)和大腦結構,它是天然的比較適合用來處理圖像。時序神經(jīng)網(wǎng)絡RNN,因為交易類場景有下單和成交時序,適合于股票期貨交易算法,長短時神經(jīng)元網(wǎng)絡族LSTMfamily,適用于語音識別,科大訊飛的核心語音識別算法就是屬于一個變形的LSTM算法。級聯(lián)隨機森林 cascade random forest,適合于決策,最高法和某大型國有科研機構合作的智慧司法項目去年底找到我們外包做人工智能模擬法官判案決策邏輯。量子熱力學模擬退火算法,它也不屬于深度學習,當我們在超級復雜的系統(tǒng)里面,想計算系統(tǒng)的狀態(tài)代價函數(shù)的全局最小點,這種特別復雜的情況下,有時候用梯度下降算法容易陷在局部最小點跳不出來,就要用這種算法。
輔助駕駛和自動駕駛中黑盒子算法的安全性問題。特斯拉最開始的時候,他的廣告宣傳片是自動駕駛,在迪拜,一個人坐上車后面的座位什么都不用管了,后來把廣告撤了,因為出了人命事故。你要讓車實現(xiàn)自動駕駛,圖象識別現(xiàn)在用的是黑箱子算法,沒有辦法去解答,圖象識別的每個層面,每層是什么意義,圖象識別的正確性如何,即便識別的精度很高也不知道什么時候失效,沒有辦法去確定圖像識別算法的正確性,只能說它是有用的有效的。還有一個方面,駕駛系統(tǒng)不僅僅是圖象識別系統(tǒng),還是一個決策系統(tǒng)。比如說舉個例子,一個自動駕駛系統(tǒng),駕駛員坐上去了,天然的駕駛系統(tǒng)就是要保護駕駛員。遇到一種場景,駕駛員坐在自動駕駛的車上,前面有緊急情況,車有一種選擇是撞上欄桿,車毀駕駛員受傷,還有一種選擇是前邊有一個高端人士,比如是一個高級學者,還有一個選擇是另外一邊站著幾個所謂的普通人,作為自動駕駛系統(tǒng),他應該選擇撞誰或者選擇保護駕駛員嗎?這是決策系統(tǒng)的問題,需要在各種可能性之間進行博弈和決策,而生命是平等的。還有生命的神圣性問題,現(xiàn)有的自動駕駛系統(tǒng)里面,沒有辦法確定算法什么時候失效,某種情況下,即便概率很低,很有可能讓一個人坐在自動駕駛的車上出現(xiàn)交通事故,出了人命。即便自動駕駛降低了車禍的概率,這種概率很低,我們作為乘客把命運交給他們不確定正確與否的算法和系統(tǒng)手里,自動駕駛的乘客生命是可以確定性的被自動駕駛的安全或者不安全性隨機的失效,低概率但是確定性的剝奪他們的生命。誰賦予了這個權力,我們要看待自動駕駛的問題,它分為幾個等級,L1到L4。有單目、雙目輔助駕駛(adas),激光雷達,微波雷達,慣性導航儀的引入,這種情況下用它來做L3級別的自動駕駛,這是可行和靠譜的,如果做L4完全自動駕駛只能用于沒有人的港口,如果突然走出來一個行人,怎么決策,在復雜的路況下怎么做自動駕駛的決策,這種是目前的技術不能做到的。
人工智能可以做所有的事情嗎?在很多應用程序里面,它是什么樣的應用環(huán)境需要被考慮進去,很多時候是一個博弈場景。廣告算法中的博弈,比如說google,百度,exchange等廣告平臺,廣告主,用戶,代理商,第三方技術服務商的博弈。我們如果了解博弈中的均衡狀態(tài),計算到均衡點,就可以進行有引導的納什均衡。量化交易算法中股票期貨外匯交易市場的博弈,比如說交易所,交易各方的博弈,算法對交易趨勢的預測,利用及擾動。這個算法引入了之后,算法引入的交易量大了,它把納什均衡破壞掉了,一個量化交易算法公開了被很多交易商使用之后,這個算法破壞了納什系統(tǒng)的狀態(tài),而且對當前的交易趨勢進行了擾動,效果就不好了。
在政治里面,在經(jīng)濟里面,也可以用到數(shù)據(jù)分析和引入博弈論。我們團隊做過一些競選的數(shù)據(jù)分析的探索。三年前我們新加坡的團隊為印度總理莫迪的競選提供了一些數(shù)據(jù)分析服務,數(shù)據(jù)驅動的選舉是可以做分析可以做預測的,選舉數(shù)據(jù)在源源不斷的更新,但是對于政治博弈,人工智能無法確定它的結果。全球治理,國家治理,宏觀經(jīng)濟模型中各項數(shù)據(jù)指標的內在關系和博弈,選舉,政治局勢的監(jiān)測,分析,預測,這些都可以用到數(shù)據(jù)分析,而且每一個復雜系統(tǒng)都可以考慮博弈動力學,都是復雜的博弈系統(tǒng),包含很多博弈子系統(tǒng),一個復雜系統(tǒng)中每一個博弈子系統(tǒng)也會有平衡態(tài),整個系統(tǒng)構成子博弈精煉納什均衡,系統(tǒng)的狀態(tài)會從一個舊的納什均衡,演進到新的納什均衡。但是數(shù)據(jù)驅動的選舉的預測分析有可行性,而隱規(guī)則驅動的政治結果預測只能判斷可能性而不能判斷結果的確定性。
人工智能里面發(fā)展最關鍵的部分是語義和知識圖譜,這個世界是否是可計算的?計算機科學、物理學、哲學能不能統(tǒng)一起來?圖像識別,語音識別,物體識別,自然語言處理,機器翻譯,社會問題,金融科技,算法交易等開放性問題,都需要知識圖譜和語義識別,知識圖譜是符號邏輯的碩果僅存與再發(fā)揚。圖像識別和語音識別達到了一定精度后要想再進步1%都很難,因為進一步的識別需要判斷語義?;趯嶓w及關系的知識圖譜的構建,要考慮到語義在高階邏輯上的不可判定性,在高級邏輯上語義是不可判定的,而且很久之前哥德爾不完全定理就證明了人類用的計算機,其根本是一個演繹邏輯系統(tǒng),是有缺陷的。很多計算問題都是NP問題,NP=P?問題的多項式時間內的可計算性研究,及Karp 21類典型NPC問題的多項式時間轉化和等價,這些計算理論問題,需要歸納邏輯與演繹邏輯結合,對于邏輯系統(tǒng)進行補充和統(tǒng)一。
在自然界有概率,有隨機性,但是也有概率分布,有概率密度分布,統(tǒng)計學有概率的隨機性,而概率密度分布是研究這種隨機分布的確定性的。人工智能在計算狀態(tài)方程的時候有概率密度分布PDF函數(shù),在計算理論和密碼學理論里面,有計算NPC的多項式時間求解中概率密度分布函數(shù)的應用。量子物理中多量子體間作用的波函數(shù)與人工智能算法中張量網(wǎng)絡有對應關系。人類知識系統(tǒng)與物理世界的語言描述和邏輯要統(tǒng)一,如果說你要建一個通用的完美的人工智能,你就要解決這個問題。哲學上的休謨問題,你能否用一些基本的原理來推導出社會上一切問題的道德性和正確性的判定?如果我們建立完美的人工智能,也就意味著我們要了解所有知識和邏輯,做到符號,代數(shù),計算的統(tǒng)一,這個意義上來講,科學的發(fā)展最終要反哺哲學。
量子計算機和人工智能沒有任何關系。有人說量子計算機的量子算法可以很快破解RSA加密帶來了驚恐,但是這個僅僅在理論上有奇效,實際不可行。因為它需要非常多,無窮無盡的量子位來實現(xiàn),但是量子位的增加是很難的工作。跟傳統(tǒng)計算機的比特位的增加不一樣,量子位的擴展對于量子態(tài)的測量和容錯,糾錯的難度是指數(shù)型增長,位數(shù)越多,糾錯難度越大。量子計算機當前最新研究進展是十幾個量子位。當前各大公司所有公布的經(jīng)典量子計算機都是量子模擬,都不是真實的實現(xiàn),Google支持的Dwave是非經(jīng)典量子計算機,真正有前景的是量子熱力學模擬退火,真正有前景的就是這種,包括日本有一個基于Ising模型研發(fā)的非經(jīng)典量子計算機,Ising模型里面出過兩個諾貝爾獎的獲得者,如果誰能夠計算三維Ising模型就能夠再獲得一個諾貝爾獎。用Ising模型在常溫下就可以做量子熱力學模擬退火芯片。量子模擬退火可以用于人工智能的組合優(yōu)化,機器學習中狀態(tài)方程的計算與量子模擬退火計算機結合的核心是添加隨機數(shù)生成器和數(shù)據(jù)的交互傳輸。
我們公司各方面發(fā)展還行,現(xiàn)在最高的日收入是接近100萬美金,量化廣告,量化金融,金融科技我們也做了不少研發(fā),我們是某個全國性股份制商業(yè)銀行的智慧銀行的項目主要開發(fā)者,包括反欺詐、大數(shù)據(jù)、企業(yè)風控和個人風控,企業(yè)授信,個人授信都是我們做的,我們在智能司法里做的最核心的就是人工智能模擬法官判案,中國的法律規(guī)定量刑范圍有一些互相沖突的條款,在各個地方規(guī)定也有一些不一樣,過去的判案案例里面有可能受到某些因素影響或者主審法官個人對法律的理解不到位,包括量刑范圍和立功減刑。如果僅僅把歷史上的案件統(tǒng)計一下根據(jù)統(tǒng)計規(guī)律指導法官進行新的判案是不靠譜的。我們也參與其他的事情比較多。今天的分享,主要是希望引起對于人工智能和大數(shù)據(jù)基礎理論和原創(chuàng)性技術研究的關注。謝謝大家!
作者簡介:
李利鵬 北京匯真網(wǎng)絡傳媒科技有限公司董事長, 日本筑波大學計算機系人工智能符號計算方向博士課程退學,碩士學位,師從數(shù)學家井田哲雄和機器證明泰斗Bruno Buchberger的弟子Micea。研究方向是計算理論,密碼學,量子計算,符號邏輯,人工智能,大數(shù)據(jù),歷任美國domainspa和epicenter技術合伙人。
匯真科技十年專注于數(shù)據(jù)分析和商務智能,建立了一支以全球最優(yōu)秀的高校和公司背景出身的數(shù)學,物理,計算機博士為主的人工智能和大數(shù)據(jù)研究技術團隊,在美國,加拿大,新加坡有三個子公司,目前在全球有200多人的研究團隊,公司的業(yè)務范圍是利用人工智能和大數(shù)據(jù)技術來進行全球范圍內的流量實時分析與算法交易和金融領域內反欺詐,授信模型,風控模型,以各種產品為交易標的的量化交易,選舉監(jiān)測,人工智能輔助司法判案等行業(yè)應用,海外子公司nativeads.com 和lexo.com計劃于美國上市,匯真母公司計劃2019年3月申報中國主板上市。
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網(wǎng)站,如涉及版權和名譽問題,請及時與本站聯(lián)系,我們將及時做相應處理;
3、歡迎各位網(wǎng)友光臨閱覽,文明上網(wǎng),依法守規(guī),IP可查。
作者 相關信息
內容 相關信息
在人工智能時代,我們更需要理解自己的智能 | 艾倫腦科學研究所所長克里斯托夫·科赫STEP峰會演講實錄
2017-11-20? 昆侖專題 ?
? 十九大報告深度談 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 我為中國夢獻一策 ?
? 國資國企改革 ?
? 雄安新區(qū)建設 ?
? 黨要管黨 從嚴治黨 ?
圖片新聞