圖源:Pixabay
2024年,諾貝爾獎將人工智能(AI)推上了科學界的中心舞臺,AI領域的科學家連續斬獲諾貝爾物理學獎與化學獎,這一令人意想不到的結果震撼了學術界。
多年后,如果我們回望2024年的諾獎頒獎,或許會發現這并不是一個意外,而是一個歷史性的轉折點——AI驅動的新科學正式接過了傳統科學的接力棒,開啟了全新的AI for Science研究時代。
AI正在編織一張跨越傳統學科界限的大網,引領我們進入一個前所未見的未來。美國國家工程院外籍院士沈向洋在一次對談中這樣表達,“如果說今天有什么事是我們一定要做的,那就是AI for Science。難以想象今天還有什么事情比它更重要,今年諾貝爾獎的頒布便是最好證明[1]。”
在今年諾獎頒發前,美國機器學習之父湯姆·米切爾(Tom M. Mitchell)就在他撰寫的AI for Science 白皮書中提到,AI for Science帶來了加速科學發展的機遇。AI已經顯著加速了從細胞生物學到材料科學、天氣和氣候建模,再到神經科學等廣泛科學領域的研究進展[2]。
谷歌DeepMind最近一篇報告也聲稱,AI for Science有望開啟科學發現的新黃金時代。當下,現代科學的進步受到了規模和復雜性的阻礙,無論是數量猛漲的文獻還是日益繁復的實驗都在阻礙科學家尋求突破。而深度學習方法最擅長從大規模數據中提煉信息,從復雜的環境中識別模式[3]。
從科學家手動整理資料,依賴學科理論提出假設,到AI主導,直接從數據出發識別模式和提出假設。這帶來的不僅是效率上的變化,更是整個科研范式的改變。
AI賦能各個學科的交叉研究,只是AI影響科學的第一步。AI for Science更宏偉的藍圖,是徹底打破學科界限。
圖靈獎得主、中科院院士姚期智相信,AI for Science給所有科學帶來的變革是“不可阻擋”的。“AI科學正在引領學科交叉創新改變世界的面貌。過去數百年來,科學家們在各自的領域以內發展,而今,我們將進入一個更廣闊的大科學時代[4]。”
01
AI賦能科學家,更專注從0到1
而這樣的一個AI時代,對中國的科學研究又有特殊的意義。
在今年《科技日報》的訪談中,中國科學院院士、中國科學技術大學副校長楊金龍提到:“由于歷史原因,我國的基礎研究在很長一段時期內落后于西方國家。充分利用人工智能,把握好這一輪科學研究范式變革的機遇,有利于我國在基礎研究的國際競爭中獲得主動地位”。
對于這種科研模式的重大變革,各大高校也早已聞風而動。仿佛一夜之間,高校們成了算力采購的大戶,各地高校紛紛開始打造AI基礎設施。[5]
2018年,西湖大學成立,其高性能計算中心幾乎同時成立,為學校“高起點、小而精、研究型”的辦學定位提供算力支撐。2020年,西湖大學開始攜手浪潮信息等企業共建計算中心,滿足各學科領域對于大規模數據處理和大規模科學計算的需求。
正是在這些算力的支持下,申恩志才得以順利地進行自己的那項傳統方法無法進行的研究。
申恩志是西湖大學非編碼核酸生物學實驗室的研究員,他的研究對象是非編碼RNA。
非編碼RNA,即那些不編碼蛋白質的RNA。從DNA到RNA再到蛋白質,這是遺傳學的“中心法則”,然而,這條“中心法則”中的DNA、RNA、蛋白質,3種物質在數量上并不均等。人類的蛋白質編碼基因大約有2萬個,但蛋白質的種類卻超過5萬個,而在所有的RNA中,98%都是沒有編碼蛋白質的非編碼RNA。MicroRNA(小RNA,是非編碼RNA的一種)曾兩次獲得過諾貝爾獎。
然而,因為非編碼RNA不編碼蛋白質,要研究他們的分子機制和生理功能,“經典生物化學缺少技術工具支撐”。且隨著高通量技術帶來的數據指數級的膨脹,高效解析測序數據,分析出其中的調控關系,找到調控規律,用經典的方法幾乎成了不可能完成的任務。
這是人類基因序列中的“暗物質”,它們龐大、復雜,在生命體里是高度動態的,可以跟很多其他生命分子相互作用、相互調節。目前的研究發現,這些非編碼RNA不僅參與生物體的各種基本生命過程,且與很多重大疾病的發生密切相關。用申恩志的話講,這些非編碼RNA“可能譜寫著更復雜更精確的生命現象”。
幸而,在這個時代,已經有了可以幫助科學家的AI,申恩志這個領域也正是較早利用AI實現科研模式變革的領域,正是在這個模式下,本屆化學獎得主Demis Hassabis團隊開發的AlphaFold自問世以來,已被廣泛應用在很多生物學領域研究中。
對于新的科研模式變革,中國科學院院士鄂維南曾經評價:過去科學界的研究模式刻意稱為“小農模式”,數百年里,科學家們在各自的領域內深耕細作,往往由同一團隊完成從理論到開發的全過程,這是一種相對低效的,不互通有無的方式。AI for science的推進,使得我們可以消弭的界限,從統一的基礎研究平臺來考慮不同學科的各類不同問題,從“小農模式”轉為“安卓模式”。
在申恩志那個由信息學、生化、生物物理、遺傳學、制藥等等各種不同背景的科研人員組成的幾乎涵蓋“海陸空”的實驗室團隊,交叉學科的研究幾乎是常態,研究者們不單利用數據建模型,也用AI做分析,用AI做其他各種輔助,努力加速自己對生命研究的進程。
對于實驗室中的這些AI輔助,申恩志說:“很多疾病的發生是因為蛋白編碼基因的異常導致的,如果我們了解了小RNA的靶向規律,理論上來說,幾乎所有的疾病都能包括進來……我們要感謝AI時代的到來,把從1到n的事情留給機器去做,留出更多的時間來做從0到1的分析,我們就可以有更多的精力來真正做事,進而加快了我們對現在整個人類面臨問題的解決的速度”。
02
尋找最高效的智能模型,也許需要回歸人腦
這是個變革的時代,AI在前沿科技領域取得了諸如AlphaFold2、核聚變智能控制、新冠藥物設計等諸多令人矚目的成果,AI for Science正在成為一種新的研究范式。
時至今日,AI for Science在科學研究的各個階段,從閱讀文獻、設計實驗、材料/靶點的篩選,到數據的分析,文獻的輔助寫作,甚至無人實驗,幾乎都有了一些成型的產品。
然而,此時此刻,AI for Science的深度發展所面臨的問題是什么?
楊金龍曾提到過兩個方面:數據,以及,“如何打造人工智能的思維能力”。前者,高質量,統一標準的數據,需要各個學科的努力,而后者,壓力給到了那些真正希望探尋智力本源的研究者們。
西湖大學人工智能教授金耀初的研究便是圍繞后一個問題的解決,事實上,他最為感興趣的是:智能的從0到1是如何開始的?智能能否通過演化發育的機制自發地產生出來?
“我們現在經常講大模型,有千億級的復雜度,(能耗極高),人腦其實也是有千億級復雜度的神經元,但是人腦的功率大概只有20~25瓦,非常高效。”金耀初說。這也是他決定從發育的角度去研究AI,探索如何用一個簡單的系統來進化出一個很復雜的系統的原因。
金耀初是歐洲科學院院士、國際電氣和電子工程師協會(IEEE)會員、IEEE計算智能學會主席,他興趣廣泛,研究領域幾乎“上天入地”,有汽車的噴氣發動機和自適應巡航系統、空中客車的機體設計,也有,疫苗預測、醫學圖像的處理、多機器人的組織等等。盡管這些領域千差萬別,但在金耀初看來,它們解決問題的方法卻是共通的,那就是他癡迷研究了多年的演化算法。
2023年10月,金耀初加入西湖大學,在這里,他創立了一個自己的“伊甸園”——他那個名為“演化及發育神經網絡”(Evolutionary Developmental Neural Systems)的實驗室,英文名縮寫正是EDEN(伊甸園),象征著人類產生時的懵懂階段。
在自己的伊甸園中,金耀初希望用AI模擬人類的起源過程,在自然環境中不斷演化發育出更智慧的智能系統,而他則觀察AI“跟環境的交互”,探索AI不斷的自我的成長,自我的演進。
在金耀初看來,自然演化是一個很“懶”的過程,即:如果某個生物用一個簡單系統能活得很好的話,它就不會去搞得很復雜。所以,“生物的演化過程并不是一個單一的增加復雜度的過程,而是要找到一個最適合這個環境的結構”。而這,也許正是目前的大模型所缺乏的。
人腦有一些很重要的特征,比如:功能分區、模塊化、模塊的合作協同,有這些,才能如此高效地出現我們看到的這些高等智能,這些東西,現在的大模型還沒有。“所以,我希望通過一些演化和發育的途徑來實現有分模塊化的人工神經網絡模型,這可能是我們需要探索的一個方向”。
目前,金耀初的演化算法已成功應用于多個實際復雜工程系統優化。2024年07月,金耀初因其在復雜系統進化優化領域的開創性貢獻,榮獲2025年IEEE Frank Rosenblatt Award大獎,成為本年度全球唯一獲此殊榮的學者。該大獎創立于2004年,是IEEE為紀念神經網絡的創始人之一Frank Rosenblatt而設立的。
演化算法之外,金耀初也在與同在工學院人工智能系的藍振忠探討合作,尋找大模型與演化優化算法的結合點,希望通過模仿交互,實現自我迭代,利用新的算法,藍振忠希望實現自己的心理AI之夢。
2020年,藍振忠從谷歌辭職,回國加入西湖大學,擔任深度學習實驗室負責人,希望能夠打造一臺能隨時隨地陪伴、輔助心理咨詢的對話機器人。目前,他們已上線了第一個產品——AI心理咨詢師“小天”,“小天”的日活躍用戶有幾萬人。
03
算力,AI時代創新的瓶頸
AI驅動科學的前景美好,但在眼下,很多高校卻面臨著現實的尷尬。它們擁有的算力資源,實在和業界相差太遠了。沒有算力的支持,AI驅動的研究也只能是無源之水。
例如,申恩志團隊所從事的非編碼 RNA研究,就對算力和 AI 算法的穩定性、泛化能力都有著頗高的要求。高通量技術帶來的海量轉錄組數據,需要依靠 AI 進行快速處理,從而識別并分類潛在序列。
“整個人類基因組堿基對約有30億,對于這樣龐大數據的分析,在方法和計算量上的都是十分復雜的問題,現在有了算力支持和AI的技術支撐,可以幫助我們更快更好的找到答案。”申恩志說。
可以說,AI工具已經貫穿了科學研究的全流程,算力則成為了不可或缺的支撐。
而現在高校算力不足是一個普遍的現象。根據《Nature》雜志的報道,一項針對全球數十家機構的學者進行的調查顯示,許多在大學工作的科學家都對AI研究可用的算力不足表示不滿。他們沒有預算買到必要的GPU,通常用于訓練人工智能模型的GPU,一塊價格可能高達數千美元。 相比之下,大型科技公司的研究人員預算更高,可以在 GPU 上花費更多。
研究報告的合著者、羅德島普羅維登斯布朗大學的計算機科學家 Apoorv Khandelwal 說,"那些行業巨頭可能擁有數千個GPU,而學術界可能只擁有一小部分GPU[6]。”
即使是最頂尖的高校,算力資源的不足仍然是制約科學發展和創新的關鍵。今年5月,斯坦福大學教授李飛飛稱學術界正在面臨AI計算資源的嚴重短缺,斯坦福大學的自然語言實驗室只有64塊GPU。“相比工業界,學術界正在從懸崖上跌落。”李飛飛說[7]。
中國高校的算力儲備就更為不足,底子薄弱,使用也很不均衡。一項相關調研顯示,2022年時,國內只有大約8.4%的高校已建設校級算力平臺,校級算力平臺的運算能力主要分布在250Tflops以下;存儲空間主要分布在500TB以下。在大模型熱潮興起時,很多國內高校實驗室只能用消費級的GPU去做實驗[8]。
在藍振忠實驗室發布在西湖大學網站上的招聘信息中,列出的吸引應聘者的第一個優勢是“實驗室有足夠的服務器設備支持大語言模型的研究,可保證實驗項目高效進行”。算力對搞大模型的藍振忠團隊至關重要,“小天”就是基于西湖大學算力資源打造的。算力對金耀初團隊、申恩志團隊等做AI跨學科研究的科學家同樣重要。
這有賴于西湖大學對科研人員長期充足的算力支持。西湖大學在計算中心的建設上,走在了國內高校的前列。
2020年以來,西湖大學計算中心與浪潮信息合作,除了構建算力系統,還打造了領先的算力平臺AIStation。
通過AIStation平臺,西湖大學的計算中心能夠統一管理計算資源,將計算資源利用率提升到90%以上,減少資源閑置,緩解多人使用下的資源擁擠以及計算資源不足問題。為西湖大學全校各研究機構提供高質量、高可靠性、高定制化的科學計算和數據分析解決方案,滿足各學科領域與人工智能融合對于大規模數據處理和大規模科學計算的需求。
在AI與學科深度融合的背景下,西湖大學建設計算中心,為全校不同學科領域的每一位師生提供優質的計算資源。在算力的支持下,西湖大學科學家展現了AI for Science無限可能。在這里的科學家身上,我們也看到了AI時代科學家的樣子。
參考文獻:
1.騰訊新聞. (2024, November 23). IDEA研究院沈向洋:從PMF到TMF,AI For Science是一定要做的事.
2.Mitchell, T. (n.d.). How Can AI Accelerate Science, and How Can Our Government Help? Carnegie Mellon University. ml
3.DeepMind. (2024). AI for Science.
4.知識分子. (2024, April 28). AI正在改變所有學科?圖靈獎得主姚期智:大科學時
來源:知識分子微信號
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網站,如涉及版權和名譽問題,請及時與本站聯系,我們將及時做相應處理;
3、歡迎各位網友光臨閱覽,文明上網,依法守規,IP可查。
內容 相關信息
? 昆侖專題 ?
? 高端精神 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 國策建言 ?
? 國資國企改革 ?
? 雄安新區建設 ?
? 黨要管黨 從嚴治黨 ?