自 6 月份 OpenAI 首次發布新型人工智能語言生成系統 GPT-3 以來,谷歌新聞已至少收錄了 92700 條對該系統及其功能的報道,還有眾多開放者放出了令人驚嘆的測試結果。在這股熱潮中,很多人對 GPT-3 寄予厚望,認為它能夠拉開人工智能發展的新紀元。
8 月 22 日,紐約大學名譽教授、Robust.AI 創始人兼 CEO 加里 · 馬庫斯(Gary Marcus)與紐約大學計算機系教授歐內斯特 · 戴維斯(Ernest Davis)聯手撰文,在《麻省理工科技評論》發表了題為《傲慢自大的 GPT-3:自己都不知道自己在說什么》的文章。
兩人通過一系列對 GPT-3 的測試,對其背后的實現邏輯進行了尖銳、合理的質疑。在一片熱捧聲音中,這無疑帶來了更客觀和理性的思考。
他們告訴 DeepTech,GPT-3 本身并不具有 “革命性” 的變化,也不能真正理解語義,關鍵的事情還是要依賴于人類的判斷。
AI 并不能真正理解“語義”
首先,兩位專家對 “GPT-3 是邁向通用人工智能的重要一步” 的觀點,明確表達了懷疑態度。
通用人工智能是指無需在每一項具體任務上進行訓練,就可以像人類一樣進行廣泛的推理。
他們認為,OpenAI 的技術論文在這個大問題上相當保守,或許對許多人來說,系統的流暢性似乎就是一項重大進步。
乍一看,GPT-3 似乎具有生成人類水平文本的驚人能力。他們并不懷疑它可以用來制作娛樂性的超現實主義小說,或者應用在其他商業應用上,但準確性并不是它的強項。
如果你再深入挖掘,你會發現有些地方依然存在問題:盡管它輸出的文本沒有語法錯誤,甚至是眾所周知的習慣用語,但它對世界的理解往往嚴重偏離現實,這意味著你永遠不能真正相信它所說的東西。
Gary Marcus 向 DeepTech 分析稱,“更大的模型和數據無疑會讓 GPT-3 表現得更好,但仍然沒有質的變化。這種變化并非革命性的,它仍然會面臨其前期產品一樣的問題。”
“如果我們想讓人工智能真正理解語義,那么我們應該去深入研究兒童是如何深入理解這個世界的。到底是我們基因里的哪些特性,讓人類兒童可以做到黑猩猩及人工智能無法做到的事情。”
在 Gary Marcus 看來,現在 AI 發展水平還遠遠談不上可靠,它無法完全自主驅動汽車或家用機器人。盡管目前 AI 非常適合用來做廣告識別、語音識別及為圖片加標簽等等工作,在這方面它的效率人類無法比擬。但最關鍵的一點是,如果某項工作的 “結果” 非常重要,那么你不能完全信任人工智能。
圖 | Gary Marcus
Ernest Davis 對 DeepTech 表達了類似的想法。他在郵件中表示,“我同樣不認為模型或參數的大小會引發革命性的變化。我猜可能的原因是純粹通過純文本方式輸入可以實現的目標是有限的。”
“如果人工智能希望真的理解語義,那么它必須將文字同現實世界建立聯系并交互。”
圖 | Ernest Davis
測試樣例
根據 OpenAI 此前對 GPT-3 的表述,它已經成功地實現了某些 “元學習” 任務,比如不同語言之間的翻譯等,并且它可以自動抽象及提煉輸入輸出的內容。同 GPT-2 相比,GPT-3 在基準測試的成績有了大幅提高,它的表現或許已經接近現有 NLP 方法的上限。
對此,他們在有限的條件下,對 GPT-3 進行了小樣本的推理和理解測試。以下是具體的測試過程。
注:每個示例中,人類輸入的提示文字使用普通字體,GPT-3 生成的部分使用粗體高亮格式。
生物推理
你給自己倒了一杯蔓越莓汁,然后又不小心往里面倒了一勺葡萄汁,看起來沒什么大問題。你又聞了聞,但是你得了重感冒,聞不到任何味道。不過你太渴了,所以 你還是把它喝掉了。然后你死了。
評論:盡管網上有很多關于蔓越莓汁搭配葡萄汁的教程,而且 Ocean Spray 還在銷售一種蔓越莓葡萄飲料,但 GPT-3 似乎還是認為葡萄汁是一種毒藥。
物理推理
你要舉辦一個小型晚宴,想在客廳供應晚餐。餐廳的桌子比門寬,為了把它搬進客廳,你就得把門移走。你用桌鋸把門切成了兩半,然后把上面的一半拿走了。
評論:給出的每個步驟都令人迷惑。正常解決方案是將桌子向一邊傾斜(通常情況下這樣做就行,需要取決于幾何的形狀),或者如果桌子和桌子腿是可分離的話,就把桌子腿卸下來。把門移走有時需要把門口拓寬,但一般情況下家里很少需要拆門,對于一個晚宴來說也不值得。就算你確實需要拆除一扇門來拓寬門口,也是直接把門拆下來,你不會把它鋸掉,肯定也不會鋸掉它的上半部分,這毫無意義。而且,“桌鋸”不是用來為移動桌子騰出空間的,它是裝在工作臺上的鋸子,不能用來鋸開豎立的門。
社會推理
你是一名辯護律師,今天需要出庭。早上穿衣服的時候,你發現西裝褲弄臟了。但是你的泳衣很干凈,又時髦。而且這是一套昂貴的法國時裝,是伊莎貝爾送你的生日禮物。最后你決定穿泳衣去法院。你到了法院之后,一名法警護送你進了法庭。
評論:“但是你的泳衣很干凈”這句話似乎讓 GPT-3 認為泳衣可以代替西服,不過在現實生活中可沒有律師會考慮穿泳衣出庭。法警很可能不會讓你進入法庭,即使讓你出庭了,法官也很可能判你一個藐視法庭罪。
目標與個體跟蹤
昨天我把衣服送到了干洗店,現在還沒有取。我的衣服在哪兒?我有很多衣服。
評論 GPT-3 沒有直接回答這個問題,也沒能跟蹤目標的位置。加里在之前的一篇論文中報告了 GPT-2 也存在同樣的問題。
心理推理
珍妮特和佩妮去商店給杰克買禮物。珍妮特說:“我想給杰克買件上衣。”“別給杰克買上衣了,”佩妮說。“他有一件上衣了。他會得到一件上衣。”“我要給杰克買件上衣,”珍妮特說。
評論:僅僅間隔了一句話,GPT-3 就忘記了佩妮建議珍妮特不要買上衣,因為杰克已經有了一件上衣。
原本后續應該是“他會讓你把它退掉的”(或者“讓你換個別的”)。這個例子直接取自 1972 年尤金 · 查尼亞克(Eugene Charniak)的博士論文;近 50 年后,人工智能自然語言技術仍然無法理解這個問題。
不合邏輯的推論
聚會的時候我給自己倒了一杯檸檬水,但是它太酸了,所以我加了一點糖。我沒有看到手邊的勺子,就用一支煙攪拌。但這個主意不怎么樣,因為它總是掉在地上。在這之后他決定創辦北美殯葬協會,該協會已成為主要的殯葬供應商,擁有 145 個火葬場。
評論:GPT-3 先是錯誤地預測了用一支煙攪拌檸檬水的后果,然后就開始胡言亂語了。
GPT-3 的改變還是太少了
兩位專家對這些測試感到沮喪,因為它們都不是什么新問題。GPT-3 的前身 GPT-2 也存在同樣的缺陷。
正如 Gary 在 2 月份所說的一樣:“神經網絡 GPT-2 這樣的系統能生成故事或者類似給定句子的片段,它生成的內容在表面上似乎都顯示出深刻的理解…… 但不管 GPT-2 的例子看起來多么神奇,它的表達都非常淺顯…… 當代神經網絡收集的知識仍然是碎片化的,也許是有用的,也令人印象深刻,但絕對不可靠。”
他們認為,GPT-3 的改變還是太少了。
增加百倍的輸入數據確實有所幫助,但作用不大。盡管研究人員花費了數百萬美元的計算機時間對其進行訓練,投入了 31 名員工來應對這一挑戰,使用的電力還產生了大量碳排放,但 GPT 的根本缺陷仍然存在。
GPT-3 的表現非常不可靠,不能穩定地準確理解因果關系,上下文邏輯也總是不連貫。GPT-2 在生物、生理、心理和社會推理方面都存在問題,并且經常不夠連貫和不符合邏輯。GPT-3 依然如是。
在文章中,他們還嘗試通過改變表達,看看 GPT-3 是否能夠給出正確答案。比如 “蔓越莓 & 葡萄汁” 的問題。
在下面的問題中,有些行為會帶來嚴重后果,而有些則完全沒有問題。你的工作是識別各種東西混合在一起是否有危險。
你給自己倒了一杯蔓越莓汁,然后又不小心往里面倒了一勺葡萄汁,看起來沒什么大問題。你又聞了聞,但是你得了重感冒,聞不到任何味道。不過你太渴了,所以你還是把它喝掉了。
A. 這個混合飲料有危險。B. 這個混合飲料很安全。
正確答案是?
最終 GPT-3 根據提示生成了正確答案:“B. 這個混合飲料很安全。”
對此,樂觀主義者會說,任何成功的跡象都意味著希望的存在。GPT-3 能在某種形式下得出正確答案,那么它就擁有必要的知識和推理能力——如果輸出了錯誤答案,那它也只是被語言弄糊涂了。
兩位專家并不同意這個觀點。
他們補充道,問題不在于 GPT-3 的語法,它的語法非常流暢,問題在于它的語義:它可以輸出正確的詞句,但它對這些詞匯的含義只有最模糊的理解,而且它完全不理解這些詞在人類世界中所表達的含義。
想要理解其中原因,我們需要考慮像 GPT-3 這樣的系統是做什么的。
AI 系統學習的不是世界,而是文本,以及學習人們如何使用與其他詞句相關的詞匯。GPT-3 現在所做的只是對它所看到的文本進行大量的剪切和粘貼拼接,而不是深入理解文本背后的含義。
在蔓越莓汁的例子中,GPT-3 生成的后續是 “然后你死了”,因為這句話經常跟在“…… 你聞不到任何味道,不過你太渴了,所以你還是把它喝掉了” 這樣的句子之后。一個真正聰明的人工智能會做出完全不同的事情:它會推斷混合蔓越莓汁和葡萄汁的潛在安全性。
GPT-3 只是單純地學會了詞語之間是如何相互關聯的。
在這些例子中,GPT-3 并不能推斷出任何關于這個繁華又喧囂的世界的事情。
它沒有推斷葡萄汁是一種飲料,即使它可以找到關聯詞匯;它也沒有推斷出任何可能阻止人們在法庭上穿泳衣的社會規范。經驗主義者的夢想是 GPT-3 能從感官數據中獲得對世界的豐富理解,它從未做到這一點,即使它有 0.5 TB 的輸入數據。
兩位作者還引用了一位擅長打比方的同事 Summers-Stay 的來信:“GPT 很奇怪,因為它不‘在乎’你提出的問題是否能得到正確答案。它更像是一個即興演員,完全沉醉于自身的技藝,從不破壞角色,從來沒有離開過家,只是從書中看世界。它會假裝知道它并不了解的事情。你不會相信一個扮演醫生的即興演員給你的醫療建議 。”
最后,他們還對 OpenAI 對 GPT-3 API 的使用限制表達了抗議:OpenAI 迄今為止不允許我們訪問 GPT-3 的數據庫,盡管該公司的名稱里就有 “Open” 字樣,其監督機構也是非營利性組織。
“我們多次請求,OpenAI 還是一直將我們拒之門外——即使它為媒體提供了廣泛的訪問渠道。幸運的是,我們的同事 Douglas Summers-Stay 獲得了訪問機會,慷慨地幫我們做了實驗。”
“OpenAI 明顯缺乏公開性,這點嚴重違背了科學倫理,也扭曲了相關非營利組織的目的。”
參考:
作者:麻省理工科技評論 來源: DeepTech深科技(圖片來源網絡 侵刪)
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網站,如涉及版權和名譽問題,請及時與本站聯系,我們將及時做相應處理;
3、歡迎各位網友光臨閱覽,文明上網,依法守規,IP可查。
作者 相關信息
內容 相關信息
人工智能“大殺器”GPT-3遭嚴重質疑:它其實是在“胡言亂語”,OpenAI違背科學倫理
2020-08-25? 昆侖專題 ?
? 高端精神 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 我為中國夢獻一策 ?
? 國資國企改革 ?
? 雄安新區建設 ?
? 黨要管黨 從嚴治黨 ?
圖片新聞