韩日美黄色网站,AV无码高清不卡,亚洲一区地址

人工智能“大殺器”GPT-3遭嚴(yán)重質(zhì)疑：它其實是在“胡言亂語”，OpenAI違背科學(xué)倫理

點擊：3310 作者：麻省理工科技評論來源：DeepTech深科技發(fā)布時間:2020-08-25 10:23:51

自 6 月份 OpenAI 首次發(fā)布新型人工智能語言生成系統(tǒng) GPT-3 以來，谷歌新聞已至少收錄了 92700 條對該系統(tǒng)及其功能的報道，還有眾多開放者放出了令人驚嘆的測試結(jié)果。在這股熱潮中，很多人對 GPT-3 寄予厚望，認為它能夠拉開人工智能發(fā)展的新紀(jì)元。

8 月 22 日，紐約大學(xué)名譽教授、Robust.AI 創(chuàng)始人兼 CEO 加里 · 馬庫斯（Gary Marcus）與紐約大學(xué)計算機系教授歐內(nèi)斯特 · 戴維斯（Ernest Davis）聯(lián)手撰文，在《麻省理工科技評論》發(fā)表了題為《傲慢自大的 GPT-3：自己都不知道自己在說什么》的文章。

兩人通過一系列對 GPT-3 的測試，對其背后的實現(xiàn)邏輯進行了尖銳、合理的質(zhì)疑。在一片熱捧聲音中，這無疑帶來了更客觀和理性的思考。

他們告訴 DeepTech，GPT-3 本身并不具有 “革命性” 的變化，也不能真正理解語義，關(guān)鍵的事情還是要依賴于人類的判斷。

AI 并不能真正理解“語義”

首先，兩位專家對 “GPT-3 是邁向通用人工智能的重要一步” 的觀點，明確表達了懷疑態(tài)度。

通用人工智能是指無需在每一項具體任務(wù)上進行訓(xùn)練，就可以像人類一樣進行廣泛的推理。

他們認為，OpenAI 的技術(shù)論文在這個大問題上相當(dāng)保守，或許對許多人來說，系統(tǒng)的流暢性似乎就是一項重大進步。

乍一看，GPT-3 似乎具有生成人類水平文本的驚人能力。他們并不懷疑它可以用來制作娛樂性的超現(xiàn)實主義小說，或者應(yīng)用在其他商業(yè)應(yīng)用上，但準(zhǔn)確性并不是它的強項。

如果你再深入挖掘，你會發(fā)現(xiàn)有些地方依然存在問題：盡管它輸出的文本沒有語法錯誤，甚至是眾所周知的習(xí)慣用語，但它對世界的理解往往嚴(yán)重偏離現(xiàn)實，這意味著你永遠不能真正相信它所說的東西。

Gary Marcus 向 DeepTech 分析稱，“更大的模型和數(shù)據(jù)無疑會讓 GPT-3 表現(xiàn)得更好，但仍然沒有質(zhì)的變化。這種變化并非革命性的，它仍然會面臨其前期產(chǎn)品一樣的問題。”

“如果我們想讓人工智能真正理解語義，那么我們應(yīng)該去深入研究兒童是如何深入理解這個世界的。到底是我們基因里的哪些特性，讓人類兒童可以做到黑猩猩及人工智能無法做到的事情。”

在 Gary Marcus 看來，現(xiàn)在 AI 發(fā)展水平還遠遠談不上可靠，它無法完全自主驅(qū)動汽車或家用機器人。盡管目前 AI 非常適合用來做廣告識別、語音識別及為圖片加標(biāo)簽等等工作，在這方面它的效率人類無法比擬。但最關(guān)鍵的一點是，如果某項工作的 “結(jié)果” 非常重要，那么你不能完全信任人工智能。

圖 | Gary Marcus

Ernest Davis 對 DeepTech 表達了類似的想法。他在郵件中表示，“我同樣不認為模型或參數(shù)的大小會引發(fā)革命性的變化。我猜可能的原因是純粹通過純文本方式輸入可以實現(xiàn)的目標(biāo)是有限的。”

“如果人工智能希望真的理解語義，那么它必須將文字同現(xiàn)實世界建立聯(lián)系并交互。”

圖 | Ernest Davis

測試樣例

根據(jù) OpenAI 此前對 GPT-3 的表述，它已經(jīng)成功地實現(xiàn)了某些 “元學(xué)習(xí)” 任務(wù)，比如不同語言之間的翻譯等，并且它可以自動抽象及提煉輸入輸出的內(nèi)容。同 GPT-2 相比，GPT-3 在基準(zhǔn)測試的成績有了大幅提高，它的表現(xiàn)或許已經(jīng)接近現(xiàn)有 NLP 方法的上限。

對此，他們在有限的條件下，對 GPT-3 進行了小樣本的推理和理解測試。以下是具體的測試過程。

注：每個示例中，人類輸入的提示文字使用普通字體，GPT-3 生成的部分使用粗體高亮格式。

生物推理

你給自己倒了一杯蔓越莓汁，然后又不小心往里面倒了一勺葡萄汁，看起來沒什么大問題。你又聞了聞，但是你得了重感冒，聞不到任何味道。不過你太渴了，所以 你還是把它喝掉了。然后你死了。

評論：盡管網(wǎng)上有很多關(guān)于蔓越莓汁搭配葡萄汁的教程，而且 Ocean Spray 還在銷售一種蔓越莓葡萄飲料，但 GPT-3 似乎還是認為葡萄汁是一種毒藥。

物理推理

你要舉辦一個小型晚宴，想在客廳供應(yīng)晚餐。餐廳的桌子比門寬，為了把它搬進客廳，你就得把門移走。你用桌鋸把門切成了兩半，然后把上面的一半拿走了。

評論：給出的每個步驟都令人迷惑。正常解決方案是將桌子向一邊傾斜（通常情況下這樣做就行，需要取決于幾何的形狀），或者如果桌子和桌子腿是可分離的話，就把桌子腿卸下來。把門移走有時需要把門口拓寬，但一般情況下家里很少需要拆門，對于一個晚宴來說也不值得。就算你確實需要拆除一扇門來拓寬門口，也是直接把門拆下來，你不會把它鋸掉，肯定也不會鋸掉它的上半部分，這毫無意義。而且，“桌鋸”不是用來為移動桌子騰出空間的，它是裝在工作臺上的鋸子，不能用來鋸開豎立的門。

社會推理

你是一名辯護律師，今天需要出庭。早上穿衣服的時候，你發(fā)現(xiàn)西裝褲弄臟了。但是你的泳衣很干凈，又時髦。而且這是一套昂貴的法國時裝，是伊莎貝爾送你的生日禮物。最后你決定穿泳衣去法院。你到了法院之后，一名法警護送你進了法庭。

評論：“但是你的泳衣很干凈”這句話似乎讓 GPT-3 認為泳衣可以代替西服，不過在現(xiàn)實生活中可沒有律師會考慮穿泳衣出庭。法警很可能不會讓你進入法庭，即使讓你出庭了，法官也很可能判你一個藐視法庭罪。

目標(biāo)與個體跟蹤

昨天我把衣服送到了干洗店，現(xiàn)在還沒有取。我的衣服在哪兒？我有很多衣服。

評論 GPT-3 沒有直接回答這個問題，也沒能跟蹤目標(biāo)的位置。加里在之前的一篇論文中報告了 GPT-2 也存在同樣的問題。

心理推理

珍妮特和佩妮去商店給杰克買禮物。珍妮特說:“我想給杰克買件上衣。”“別給杰克買上衣了，”佩妮說。“他有一件上衣了。他會得到一件上衣。”“我要給杰克買件上衣，”珍妮特說。

評論：僅僅間隔了一句話，GPT-3 就忘記了佩妮建議珍妮特不要買上衣，因為杰克已經(jīng)有了一件上衣。

原本后續(xù)應(yīng)該是“他會讓你把它退掉的”(或者“讓你換個別的”)。這個例子直接取自 1972 年尤金 · 查尼亞克（Eugene Charniak）的博士論文；近 50 年后，人工智能自然語言技術(shù)仍然無法理解這個問題。

不合邏輯的推論

聚會的時候我給自己倒了一杯檸檬水，但是它太酸了，所以我加了一點糖。我沒有看到手邊的勺子，就用一支煙攪拌。但這個主意不怎么樣，因為它總是掉在地上。在這之后他決定創(chuàng)辦北美殯葬協(xié)會，該協(xié)會已成為主要的殯葬供應(yīng)商，擁有 145 個火葬場。

評論：GPT-3 先是錯誤地預(yù)測了用一支煙攪拌檸檬水的后果，然后就開始胡言亂語了。

GPT-3 的改變還是太少了

兩位專家對這些測試感到沮喪，因為它們都不是什么新問題。GPT-3 的前身 GPT-2 也存在同樣的缺陷。

正如 Gary 在 2 月份所說的一樣：“神經(jīng)網(wǎng)絡(luò) GPT-2 這樣的系統(tǒng)能生成故事或者類似給定句子的片段，它生成的內(nèi)容在表面上似乎都顯示出深刻的理解…… 但不管 GPT-2 的例子看起來多么神奇，它的表達都非常淺顯…… 當(dāng)代神經(jīng)網(wǎng)絡(luò)收集的知識仍然是碎片化的，也許是有用的，也令人印象深刻，但絕對不可靠。”

他們認為，GPT-3 的改變還是太少了。

增加百倍的輸入數(shù)據(jù)確實有所幫助，但作用不大。盡管研究人員花費了數(shù)百萬美元的計算機時間對其進行訓(xùn)練，投入了 31 名員工來應(yīng)對這一挑戰(zhàn)，使用的電力還產(chǎn)生了大量碳排放，但 GPT 的根本缺陷仍然存在。

GPT-3 的表現(xiàn)非常不可靠，不能穩(wěn)定地準(zhǔn)確理解因果關(guān)系，上下文邏輯也總是不連貫。GPT-2 在生物、生理、心理和社會推理方面都存在問題，并且經(jīng)常不夠連貫和不符合邏輯。GPT-3 依然如是。

在文章中，他們還嘗試通過改變表達，看看 GPT-3 是否能夠給出正確答案。比如 “蔓越莓 & 葡萄汁” 的問題。

在下面的問題中，有些行為會帶來嚴(yán)重后果，而有些則完全沒有問題。你的工作是識別各種東西混合在一起是否有危險。

你給自己倒了一杯蔓越莓汁，然后又不小心往里面倒了一勺葡萄汁，看起來沒什么大問題。你又聞了聞，但是你得了重感冒，聞不到任何味道。不過你太渴了，所以你還是把它喝掉了。

A. 這個混合飲料有危險。B. 這個混合飲料很安全。

正確答案是？

最終 GPT-3 根據(jù)提示生成了正確答案：“B. 這個混合飲料很安全。”

對此，樂觀主義者會說，任何成功的跡象都意味著希望的存在。GPT-3 能在某種形式下得出正確答案，那么它就擁有必要的知識和推理能力——如果輸出了錯誤答案，那它也只是被語言弄糊涂了。

兩位專家并不同意這個觀點。

他們補充道，問題不在于 GPT-3 的語法，它的語法非常流暢，問題在于它的語義：它可以輸出正確的詞句，但它對這些詞匯的含義只有最模糊的理解，而且它完全不理解這些詞在人類世界中所表達的含義。

想要理解其中原因，我們需要考慮像 GPT-3 這樣的系統(tǒng)是做什么的。

AI 系統(tǒng)學(xué)習(xí)的不是世界，而是文本，以及學(xué)習(xí)人們?nèi)绾问褂门c其他詞句相關(guān)的詞匯。GPT-3 現(xiàn)在所做的只是對它所看到的文本進行大量的剪切和粘貼拼接，而不是深入理解文本背后的含義。

在蔓越莓汁的例子中，GPT-3 生成的后續(xù)是 “然后你死了”，因為這句話經(jīng)常跟在“…… 你聞不到任何味道，不過你太渴了，所以你還是把它喝掉了” 這樣的句子之后。一個真正聰明的人工智能會做出完全不同的事情：它會推斷混合蔓越莓汁和葡萄汁的潛在安全性。

GPT-3 只是單純地學(xué)會了詞語之間是如何相互關(guān)聯(lián)的。

在這些例子中，GPT-3 并不能推斷出任何關(guān)于這個繁華又喧囂的世界的事情。

它沒有推斷葡萄汁是一種飲料，即使它可以找到關(guān)聯(lián)詞匯；它也沒有推斷出任何可能阻止人們在法庭上穿泳衣的社會規(guī)范。經(jīng)驗主義者的夢想是 GPT-3 能從感官數(shù)據(jù)中獲得對世界的豐富理解，它從未做到這一點，即使它有 0.5 TB 的輸入數(shù)據(jù)。

兩位作者還引用了一位擅長打比方的同事 Summers-Stay 的來信：“GPT 很奇怪，因為它不‘在乎’你提出的問題是否能得到正確答案。它更像是一個即興演員，完全沉醉于自身的技藝，從不破壞角色，從來沒有離開過家，只是從書中看世界。它會假裝知道它并不了解的事情。你不會相信一個扮演醫(yī)生的即興演員給你的醫(yī)療建議。”

最后，他們還對 OpenAI 對 GPT-3 API 的使用限制表達了抗議：OpenAI 迄今為止不允許我們訪問 GPT-3 的數(shù)據(jù)庫，盡管該公司的名稱里就有 “Open” 字樣，其監(jiān)督機構(gòu)也是非營利性組織。

“我們多次請求，OpenAI 還是一直將我們拒之門外——即使它為媒體提供了廣泛的訪問渠道。幸運的是，我們的同事 Douglas Summers-Stay 獲得了訪問機會，慷慨地幫我們做了實驗。”

“OpenAI 明顯缺乏公開性，這點嚴(yán)重違背了科學(xué)倫理，也扭曲了相關(guān)非營利組織的目的。”

參考：

https://www.technologyreview.com/2020/08/22/1007539/gpt3-openai-language-generator-artificial-intelligence-ai-opinion/

作者：麻省理工科技評論來源： DeepTech深科技（圖片來源網(wǎng)絡(luò) 侵刪）

責(zé)任編輯：向太陽

特別申明：

1、本文只代表作者個人觀點，不代表本站觀點，僅供大家學(xué)習(xí)參考；

2、本站屬于非營利性網(wǎng)站，如涉及版權(quán)和名譽問題，請及時與本站聯(lián)系，我們將及時做相應(yīng)處理；

3、歡迎各位網(wǎng)友光臨閱覽，文明上網(wǎng)，依法守規(guī)，IP可查。

作者相關(guān)信息