五一節前,收到幾封郵件,大致意思都是想要我文章的源代碼和數據,進行復現。
我對來信的突兀程度感到十分詫異,一問學生,才知道他們也收到大量的來自qq、hotmail、outlook等非單位郵箱的郵件,大多是信口開河,說學生的文章有寫作和邏輯問題,但卻沒有給出任何細節,最終都落到一個要求—— “提供代碼”(見圖1)。
學生告訴我,每年這個時候都會集中收到類似郵件,大概是因為畢業生要準備畢業論文了。
我忙問學生,這種情況持續多久了?他們告訴我有一段時間了,但近年來愈演愈烈,幾乎成了套路和風氣。比如這幾天一些學生還被同一個qq匿名郵件以每天三封的頻率持續騷擾。
圖1 匿名想要源代碼或具體實現的郵件例子。
雖然我相信世界上幾乎沒有人可以保證自己的研究成果是100%正確,但向學生們和合作者強調學術倫理道德和底線,是我一貫的做法。因此,盡管可能會有一些瑕疵,但我相信他們的研究成果是經得起學術推敲的。
為了讓學生免于這些無聊干擾、專心致志科研,我立即表示:對于這種匿名騷擾的郵件,拒絕回復并直接拉黑發送方。
沒想到,稍晚時候,我竟然又收到了匿名者郵件,他帶著威脅地聲稱——文章有著疑點,“非常有禮貌” 地詢問了我的學生,卻被拉黑了(見圖2)。
圖2 匿名威脅發我的郵件截圖(文章信息、發送方和文章作者信息已經做處理)
我認真讀完這份郵件,并沒有找到他們敘述的任何有關我們文章的疑點,但就是要詳細的實現。
我感覺匿名者似乎缺乏基本的知識和文獻背景。從郵件猜測,匿名發送人大概是大學生或低年級的研究生,郵件中的一些疑惑本應在研究前,由其指導老師所教的基礎知識和基本的文獻閱讀就能解答。
當然,最使我吃驚的是,郵件所透露出來的貌似隱約但直截了當的威脅。
為此,我向海內外的朋友們了解了一下情況,發現很多人也收到了類似的郵件,甚至有幾位朋友說,他們天天都有收到此類郵件,讓我不要大驚小怪。
這些來自實名 “伸手黨” 或匿名 “威脅黨” 的郵件,讓我十分悲憤——深度學習時代的人工智能研究怎么出了這種亂象?
1
寫不如逼,逼不成恐嚇
我們知道,深度學習模型的復現和重用需要人力研發與計算設備的投入。我們實驗室為了搭建相應的軟硬件環境,花費了數以億計的經費。即便如此,我們自己的復現結果,有時也不盡人意。
自己編程寫復現代碼困難重重,有些人便來找捷徑了——直接向作者要源碼和具體實現。
實名要的,一般會說看了文章但是復現難度大,所以要代碼或者實現細節??捎行┤艘姆绞揭菜坪跆欢Y貌、太懶了——甚至于在郵件里連作者的名字和文章題目都寫錯了,絲毫沒有看出對方是看過該文章的。
匿名要的,因為擔心作者舉報,通常不會用實際單位郵箱而用社會上的通用郵箱發送。這些匿名郵件不會表露出要代碼或者要實現細節的目的和用途,而是在言辭上拐彎抹角地逼問恐嚇,例如指責疑點很多、將舉報論文作者等等。可一旦作者將代碼或者實現細節回復匿名者,并詢問對方發現的具體疑點后,往往就沒有下文了。
拿到作者的源碼,用于學術研究當屬正常,但瞞著作者直接將其商用的,也不在少數。例如,著名目標檢測算法YOLO的作者 Joseph Redmon 宣布,將停止一切計算機研究,原因是自己的開源算法在未經過他同意的情況下,已經被其他人用于引發軍事沖突和侵犯隱私的系統里。
更可恥的是,有了作者的源碼,卻沒有運行出作者的結果,那便繼續逼問作者。
可氣的是,有些人根本不花氣力去了解論文和具體的實驗步驟及其所必須的軟硬件實驗環境,出現過許多可笑的情況。
一位朋友曾告訴我,僅僅因為匿名者自己的軟件版本與作者不同而導致程序報錯,就去 “討伐” 作者;當作者好心相助后,匿名者竟然連程序報錯日志是什么都不知道。
還有一位朋友告訴我,在他認真回復之后,匿名者仍然再問稍有基本知識就知道是相同問題的問題,一旦沒有及時回復,那就天天、過幾小時甚至幾分鐘后發一封,被迫成為了 “義務” 指導老師,而且是 “保姆型” 的。無奈之下,朋友把數據、代碼與模型封裝成一個Docker作為回復,匿名者竟然回問朋友Docker如何安裝和使用?真是當老師不夠,“保姆” 才行!
更有甚者,匿名者被一個作者拉黑后,就威脅其他合作者或作者單位的其他人。這樣不成功,再換個 “馬甲” 甚至幾個 “馬甲”,把這個過程再來一遍。例如,一位朋友告訴我,他的團隊收到過來自不同匿名者的郵件,這些郵件除了郵件地址之外,郵件內容竟然一字不差!
總之,這些人沒有底線、目的只有一個:交出代碼!
了解了這些情況,讓我極度悲哀。面對這種郵件,為何有人沒錯卻把代碼給了匿名者?為何匿名者又連錯誤的代碼都要?與朋友討論完后,我的認識是這樣的:
● 如果文章的算法沒有問題,交出代碼,一是真心幫助,這本就是學術界的傳統;二是息事寧人,由于深度學習文章往往需要多人合作,作者一長串,有些作者深度參加,有些作者較少參與,并不是所有作者對其結果有著同樣的信心和定力,這就為匿名者提供了各個擊破的機會。
● 如果文章有問題,出乎我意料之外,錯誤的代碼有時也有價值,而且是正確的價值。比如,可以用它們 “交差”,完成KPI甚至是畢業、升職;還可以進一步地分析并修正這些代碼,大大縮短開發周期。
在與朋友的交談中,讓我感覺這種 “寫不如逼、逼不成就威嚇” 的現象在一些高校學生以及企業的實習生中,愈演愈烈、泛濫成災,開始從 “潛規則” 向不健康的 “亞文化” 發展。
如此發展下去,不但不能解決深度學習模型的可復現性問題,而且讓人擔心商用深度學習系統的可用性和可靠性。特別是,更讓人擔心對于年輕人在文化和精神層面上的損害。
2
難以復用的深度學習困境
深度學習改變了人工智能的面貌,這是一個巨大的進步。一個新的、規模化的以大數據和算法為核心的行業革命方興未艾,而其關鍵就是深度學習模型。學術圈與企業界的研究重點已經轉入深度學習模型的設計與應用,其第一步往往就是復現和復用他人的工作。
在傳統的機器學習時代,理論算法與實現步驟基本上是等價的,因為其步驟都是確定的,所以大部分算法都是可以被近似或者完美復現。但在深度學習時代,深度網絡從本質上就是大規模參數的隨機尋優問題,而且包含著很多隨機步驟。
因此,在作者不開源的情況下,特別是不明確軟硬環境的情況下,復現者得不到作者聲稱結果的現象就會變得正常和普遍。
雖然計算機學科開源的風氣越來越好,可重復性問題得到了很大的改善,但是,在為數不少的情況下,即使作者將源代碼和數據都發布在論文中,其他機器學習研究人員仍然很難復現其結果。
例如,去年4月3日,圖靈獎得主楊立昆(Yann LeCun)在其推特上公開質疑谷歌大腦的論文無法復現,而且表示即使是NLP的一些頂級研究人員也無法復現谷歌大腦的語言模型 Transformer-XL 所得到的結果。
其實,同一問題在不同的軟硬實驗條件下,兩個或三個研究小組得到相同研究結論,但與原作者差距較大的是常見的。另外,可能由于軟硬環境的升級,即使是同一作者不同時期實現的同一算法,算法的效果也會差別巨大,這是我在文獻檢索時親自經歷的一件事。
個人認為,一般來說,造成深度學習難以復現的原因主要由算法水平和硬件水平兩方面導致:
● 從算法水平上講,比如論文作者可能會從多組不同的實驗環境中挑選出最好的結果,以達到最好的水平;或者使用一些技巧,例如,數據集的劃分、針對數據集來調整機器學習模型的參數、在一個較大的私有數據集進行預訓練等等,以提升實驗結果。
● 從硬件水平上講,由于不同的CPU和不同的GPU計算能力的差異,在不同的硬件平臺上訓練不同類型的深度網絡時,不同的深度學習模型會有不同的特性和運行性能。一些研究人員與普通研究者相比,有著難以匹敵的超級算力(超級計算、超大規模云計算等等)。
此外,由于金融、醫學、能源等領域有著技術和數據隱私的特殊性,這些領域的深度學習算法的數據、代碼和模型大多是不能公開的,是極度保密的。和有些公司合作的論文,有時公司要求技術的保密,不能公開數據、代碼和模型。
綜上,目前的算法訓練技巧、軟硬件實驗環境和軟硬件實驗條件成為了深度學習模型的關鍵技術的一部分。由于知識產權和其他不得已的保密因素的影響,作者不愿分享和不能分享的現象也變得日益普遍,這就造成了一個難以復現、難以復用的深度學習困境。
最后,深度學習的不可解釋性也是造成目前困境的原因之一。從理論上,我們無法要求一個不可解釋性的模型總是給出一個可以解釋的結果。
客觀上,投機分子抓住了深度學習的這一特點,一批人造假欺騙換取名利、一批人威逼恫嚇掠取成果,從正反兩個方面,殃及廣大無辜的科研工作者。
3
破局的可能之路——聯邦智能與聯邦生態
由于各方面原因造成的數據、代碼與模型的孤島問題限制了深度學習模型的復現與應用;與此同時,社會對于數據隱私保護與知識產權保護的愈加重視,相關監管措施逐步出臺,導致數據的收集與技術的分享變得更加困難。
面對當前深度學習的困境,一味地讓作者開源并不能徹底地解決問題。而且,數據的價值源于其孤島性,知識產權的價值在于其可保護性,那么有沒有更好的解決設想或者解決方案?
一方面,我們要大力發展開源平臺和托管中心等現有手段,但是要改變這些組織間相互獨立、各自為營的現狀。運用以以太坊DAO等為代表的加密管理技術,將各個開源與托管組織間的深度學習的數據、代碼與模型進行協同管理,以協同發揮 “組織智能” 的優勢,突破DNN、GNN等算法中心論思維。最終,上 “真道”,真就是可信,可靠、可用、良效(Effective and Efficient);道就是分布自主有序組織化, 形成人類智能(Human Intelligence)、人工智能(Artificial Intelligence)、組織智能(Organizational Intelligence)相互協作的好(HAO)智能,以解決深度學習的困境。
另一方面,許多朋友都知道,我的希望是構建聯邦生態來解決這一問題(詳見《聯邦生態:從聯邦數據到聯邦智能》,智能科學與技術學報, 2020, vol.2,no.4, pp.305-313)。
我們設想的聯邦生態指在分布式的聯邦節點間,以基于區塊鏈的聯邦安全、聯邦共識、聯邦激勵、聯邦合約為支撐技術,以聯邦數據、聯邦控制、聯邦服務、聯邦管理為核心內容的面向隱私保護和數據安全、技術和資源協同管理的統一整體。
聯邦生態以數據和算子交換時的隱私可控為前提,通過聯邦控制實現數據聯邦化,通過聯邦管理實現服務聯邦化,借助人工智能和大數據技術實現聯邦智能,驅動整個產業和服務生態的創新和進步。在一定程度上,聯邦學習為我們提供了一個初步的案例。
我希望聯邦智能與聯邦生態以及其他智能手段是破除深度學習困局的可能之道,推動智能系統研發的更加深入與普及,使其早日具有廣泛造福于人類社會的可靠性與合法性。
4
應對有理有節,絕不屈從
話說回來,在我們學術生活中,學術交流扮演著極其重要的角色,我們必須捍衛其純正性。這種匿名逼問、騷擾威脅的行為不但損害了學術交流,而且實際上是保護了真正的學術作弊行為。若是大行其道,那就沒有了正常的學術生活。為此,我們必須有禮有節、絕不屈從于這種行為!
面對這種匿名、污蔑、騷擾、威脅行為,我特地為實驗室暫時制定下了如下規則——無理由要源代碼和數據集的一律不回,多次發送并騷擾的,請直接拉黑發送方;郵件應該由通訊作者統一回復;其他作者收到關于自己文章的問題的郵件告知對方,問題應由通訊作者回答;通訊作者應該核對郵件發送方,確認是否匿名、是否是騷擾,是否是單位郵箱發送,若是學生,是否抄送其導師的單位郵箱,是否有脅迫威脅言論?通訊作者應根據上述情況進行相應處理,并將結果上報實驗室。
希望這 “約法三章” 可以幫助我們的學生遠離匿名逼問、騷擾威脅,回歸到正常的學術生活。
作者:王飛躍,中國科學院自動化研究所研究員、博士生導師,復雜系統管理與控制國家重點實驗室主任
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網站,如涉及版權和名譽問題,請及時與本站聯系,我們將及時做相應處理;
3、歡迎各位網友光臨閱覽,文明上網,依法守規,IP可查。
內容 相關信息
人類傾向于高估人工智能的進步,低估自身智能的復雜性-讀《AI 3.0》
2021-02-15高奇琦|為什么要發展人工智能、區塊鏈?它們涉及國家治理現代化的兩大革命
2019-11-30? 昆侖專題 ?
? 高端精神 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 我為中國夢獻一策 ?
? 國資國企改革 ?
? 雄安新區建設 ?
? 黨要管黨 從嚴治黨 ?
圖片新聞