在中國的 DeepSeek 詳細介紹了一種生成式 AI 方法幾天后,該方法只需要用于構建著名美國工具的計算能力的一小部分,圍繞 AI 和國家安全的全球對話——從五角大樓如何購買和使用人工智能,到外國勢力如何破壞美國人的生活,包括隱私——正在發(fā)生變化。
DeepSeek 的聲明引起了白宮、華爾街和硅谷的集體哀嚎。在華盛頓特區(qū),特朗普總統(tǒng)稱這是“我們行業(yè)的警鐘,我們需要專注于與中國的競爭”。白宮新聞秘書卡羅琳·萊維特 (Karoline Leavitt) 表示,國家安全委員會目前正在審查該應用程序。海軍已經(jīng)禁止了它。在華爾街,芯片制造商英偉達(Nvidia)的股價暴跌。DeepSeek 最接近的美國競爭對手 OpenAI 大喊大叫,聲稱該應用本質上是他們自己的模型。
如果你認為美國“必須贏得與中國戰(zhàn)略競爭加劇的人工智能競爭”,就像谷歌前董事長埃里克·施密特(Eric Schmidt)和前國防部副部長羅伯特·沃克(Robert Work)在 2021 年所寫的那樣,那么 DeepSeek 是一件大事。
為什么 DeepSeek 如此重要?首先,它比其他模型更加開源。但決定性的技術創(chuàng)新在于該模型能夠將高級推理能力從大型模型提煉成更小、更高效的對應模型。一個 DeepSeek 模型的性能通常優(yōu)于更大的開源替代方案,為緊湊的 AI 性能設定了新標準(或至少是一個非常公開的標準)。
DeepSeek 嚴重依賴強化學習來培養(yǎng)推理技能,避開了 OpenAI 等競爭對手通常在初始階段使用的監(jiān)督微調。這種方法與美國 AI 巨頭采用的混合訓練策略有意背道而馳。
論文中描述的基準測試結果表明,DeepSeek 的模型在推理密集型任務中具有很強的競爭力,在數(shù)學和編碼等領域始終保持頂級性能。然而,該研究也強調了一些漏洞,特別是在非推理任務和事實查詢準確性方面,它無法與 OpenAI 最先進的產(chǎn)品相提并論。
沒有人獨立驗證 DeepSeek 沒有使用大量計算資源來實現(xiàn)其基準測試結果(或者基本上沒有復制 OpenAI),但美國對高度先進的微芯片的控制將限制中國可用的資源。
Scale AI 的首席執(zhí)行官 Alex Wang 在接受 CNBC 采訪時將 DeepSeek 描述為 OpenAI 相當。他還表示,盡管有出口管制,中國還是獲得了大約 50000 塊 Nvidia 的 H100 芯片。
Nvidia 發(fā)言人沒有直接回應這一說法。他告訴 Defense One:“DeepSeek 是一項出色的 AI 進步,也是 Test Time Scaling 的完美示例,”當模型接收數(shù)據(jù)以產(chǎn)生新結果時,該技術可以提高計算能力。額外的計算能力使模型能夠探索不同的選項并改進其答案,從而以更少的訓練(更少的計算)獲得更好的答案。然后,該模型可以更有效地集中其計算能量。這有點像鍛煉:起初,鍛煉會消耗能量,但從長遠來看,它有助于身體建立儲存和更有效地使用能量的能力。
“DeepSeek 的工作說明了如何使用該技術創(chuàng)建新模型,利用廣泛可用的模型和完全符合出口管制標準的計算。推理需要大量的 NVIDIA GPU 和高性能網(wǎng)絡。我們現(xiàn)在有三條縮放法則:訓練前和訓練后,它們仍在繼續(xù),以及新的測試時縮放,“英偉達發(fā)言人說。
這一發(fā)展代表了關于如何建立 AI 主導地位的討論的根本轉變。雖然像 OpenAI 這樣的公司基于龐大的數(shù)據(jù)集、超大型模型和不斷擴展的計算機資源取得了成果,但 AI 的下一階段可能會迎來需要更少計算資源的小型模型。
這對大型企業(yè)云提供商來說可能是個壞兆頭,包括許多領導人參加特朗普就職典禮的科技巨頭。許多公司都指望對資源匱乏的生成式 AI 產(chǎn)品的巨大需求,并正在尋求替代方法。但是,圍繞如何構建 AI 的討論發(fā)生變化,對于那些希望在電力和大型云資源的連接不完整的地方利用最強大的工具的部隊來說可能是個好消息。對于負責捕獲最佳 AI 功能同時控制支出的國防部來說,它也可能有所幫助。
人工智能的全新、更小的未來
試圖規(guī)劃一條與 OpenAI 和大型企業(yè)云提供商截然不同的道路的 AI 研究人員,他們對 DeepSeek 的突破并不感到驚訝。
數(shù)據(jù)科學家 Drew Breunig 告訴 Defense One,“如果說 DeepSeek 的勝利有什么教訓,那就是:當進步的途徑只是花更多的錢時,要保持警惕。這條路不會促進創(chuàng)新,而你較貧窮的競爭對手將被迫發(fā)揮創(chuàng)造力,在他們的限制下工作,最終......他們會贏的。支出不是創(chuàng)新。(永遠不要低估中國科研人員的聰明才智。)
在最近的一篇博文中,他描述了合成數(shù)據(jù)如何減少生成高性能模型所需的原始數(shù)據(jù)量和計算能力。“這種策略使小型模型受益,其速度與大型模型相同,”他說。
AI 初創(chuàng)公司 Useful Sensors 的首席執(zhí)行官 Pete Warden 告訴 Defense One,“DeepSeek 表明,在越來越大的模型上花費越來越多的資金并不是改進 AI 的唯一方法。TinyML 基于這樣一種理念,即使用訓練成本更低的較小模型,我們可以構建具有重大影響的應用程序,盡管它們的大小很大。
但是,伯克利 AI 博士生 Ritwik Gupta 與幾位同事一起撰寫了一篇關于構建更小的 AI 模型以產(chǎn)生大結果的開創(chuàng)性論文,他警告說,圍繞 DeepSeek 的大部分炒作都表明了對它的誤讀,他將其描述為“仍然是一個大模型”,擁有 6710 億個參數(shù)。
“然而,非常值得注意的是,DeepSeek-R1 團隊提供了他們模型的第一方'蒸餾'版本,”Gupta 告訴 Defense One。“DeepSeek 所做的是獲取 1.5-700 億個參數(shù)的較小版本的 Llama 和 Qwen,并根據(jù) DeepSeek-R1 的輸出對其進行訓練。這使得'類似 R1'的模型可以在較小的設備上運行,例如筆記本電腦或手機。
DeepSeek 的性能(只要它展示了什么是可能的)將使國防部在與行業(yè)討論時有更多籌碼,并使國防部能夠找到更多的競爭對手。
“如果看到國防部接受 DeepSeek 和 Qwen 的開源美國復制品,我不會感到驚訝,”Gupta 說。“國防部一直熱衷于為原本僅限云的服務產(chǎn)品提供特殊的本地版本。如果他們向 OpenAI 和 Claude 提出這個要求,我不會感到驚訝。
AI Now Institute 的首席 AI 科學家 Heidy Khlaaf 的研究重點是武器系統(tǒng)和國家安全中的 AI 安全。她告訴 Defense One,如果這一突破是真的,可能會為較小的參與者(包括潛在的小型制造商)打開生成式 AI 的使用。但她說,這種模式永遠不適合戰(zhàn)斗,盡管人們渴望在這種環(huán)境中使用它們。
“一般來說,LLM 或基礎模型不適合安全關鍵任務,因為它們在需要可靠性和精度的應用中很容易出錯。然而,DeepSeek 的規(guī)模和功能確實為以前可能無法訪問的小型參與者開放了基礎模型的使用,這可能包括可能有興趣以非安全關鍵方式使用基礎模型的汽車制造商,“Khlaaf 說。
伯克利風險與安全實驗室的 Andrew Reddie 告訴 Defense One,“對于我們這些一直在跟蹤 AI 研究人員如何能夠開發(fā)計算量減少的模型的人來說,DeepSeek 的性能完全不足為奇。
他說,美國公司應該將這一突破視為向不同方向追求創(chuàng)新的機會。“有趣的是,鑒于美國對 NVIDIA GPU 的出口管制,中國研究人員面臨的計算挑戰(zhàn)與美國學術界面臨的挑戰(zhàn)并無不同,因為與私營企業(yè)相比,我們的計算限制越來越嚴重。”
美國軍方已經(jīng)在邊緣功能上投入了大量資金,以使計算能力盡可能接近作戰(zhàn)人員。Reddie 說,較小的模型性能突破表明,這些邊緣計算投資的價值有所增加。
“還有一個非常有趣的問題,即在軍事環(huán)境中使用開放式模型而不是封閉模型,”他說。“前者的優(yōu)勢在于,它們很容易在政府網(wǎng)絡內部移動以利用政府/軍事數(shù)據(jù),但存在明顯的風險,即敵對國家獲得訓練數(shù)據(jù)、模型權重等。”
但也許 DeepSeek 的聲明最重要的收獲不是它對美國和中國之間的競爭意味著什么,而是對個人、公共機構以及任何對越來越小的科技參與者日益增長的影響力持懷疑態(tài)度的人。如果您想使用您控制的數(shù)據(jù)構建自己的生成式 AI 工具,而不是依賴可能或可能不將您的最大利益放在心上的大公司的工具,那么這是個好消息。
“互聯(lián)網(wǎng)歷來作為一組去中心化的服務而蓬勃發(fā)展,”Gupta 說。如果目標是讓每個人都擁有自己的“個人 AI”,那么小型模型就有必要在人們的個人設備上運行。我希望像 Apple 這樣擁有隱私優(yōu)先模式的公司繼續(xù)推動離線、斷開連接的算法。
但 Khlaaf 警告說,用大型模型代替精煉模型會帶來個人隱私風險,這種風險也適用于部隊,因為個人數(shù)據(jù)泄露對他們的影響就像對平民的影響一樣,使他們容易受到對抗性目標、脅迫等的影響。
正如軍方領導人所指出的那樣,美國人個人數(shù)據(jù)的廣泛暴露本身就是敵人在發(fā)生沖突時可能利用的國家漏洞。如果不進行全面改革來幫助個人更好地保護自己的數(shù)據(jù),像 DeepSeek 這樣強大的小型模型的激增可能會使不良趨勢變得更糟。
Khlaaf 說:“DeepSeek 挑戰(zhàn)了更大規(guī)模模型總是更具性能的想法,考慮到大規(guī)模構建 AI 模型所帶來的安全和隱私漏洞,這具有重要意義。
對于個人隱私,“蒸餾技術允許將較大的模型壓縮成較小的模型,同時保留較大模型的許多屬性。對于使用基礎模型使用其數(shù)據(jù)進行訓練的公民,所有相同的隱私問題都將延續(xù)到 DeepSeek 的提煉模型中,只是現(xiàn)在不受美國管轄。這就是為什么我們警告說,在敏感數(shù)據(jù)上訓練 AI 模型會帶來國家安全風險。
來源:君工小參;作者:Mekin68
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網(wǎng)站,如涉及版權和名譽問題,請及時與本站聯(lián)系,我們將及時做相應處理;
3、歡迎各位網(wǎng)友光臨閱覽,文明上網(wǎng),依法守規(guī),IP可查。
內容 相關信息
DeepSeek 如何改變 AI 的未來——以及這對國家安全意味著什么
2025-02-12? 昆侖專題 ?
? 高端精神 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 國策建言 ?
? 國資國企改革 ?
? 雄安新區(qū)建設 ?
? 黨要管黨 從嚴治黨 ?
? 社會調查 ?