很多人在后臺給我留言,要我講講DeepSeek。這大過年的。本來想睡個懶覺。然后看個電影。然后再睡個懶覺。然后再看個電影。什么也不想寫。但是但是但是,DeepSeek實在是太火了。
火到什么程度呢?
美國的一把山林大火,幾個星期燒掉了加州2500億美元。而DeepSeek橫空出世,納斯達克大跌3%,瞬間燒掉了5000多億。
什么概念?如果把這5000多億換成百元美刀,用飛機來運到焚燒廠去燒,需要87架滿載的空客380。
美國人嚇壞了。
可是,DeepSeek這把火,為何燒疼了硅谷?DeepSeek,到底厲害在什么地方?他被高估了嗎?有人指責DeepSeek“偷竊”,是真的嗎?
今天。我們就來聊聊這件事。從哪里開始呢?就從美國人為什么這么怕開始。這種怕,源于心中的一根刺。一根針不能碰,一碰就疼的針。
這根刺的名字叫:斯普特尼克時刻。
01
斯普特尼克時刻
1957年10月的一天,很多美國人走出家門,驚恐地望向天空。他們聽說,(前)蘇聯人發了一顆“籃球”上天,繞著地球飛行。時速29000公里。他們試著用肉眼,尋找這顆不斷在他們頭頂上繞圈的“籃球”。
這顆“籃球”的名字,就叫斯普特尼克(sputnik)。它當然不是籃球。它是一顆人造衛星。
人類歷史上第一顆人造衛星。
人類歷史上第一顆人造衛星,“居然”不是自己發射的。美國人很難接受。你能想象嗎?這就像連續三年的全年級第一,突然發現清華唯一提前錄取的,不是自己。
斯普特尼克號衛星,就像一根刺一樣,扎痛了那一代美國人。
然后,美國正式成立了NASA(美國航天局),并舉全國之力完成了登月。這才拔掉了心頭那根叫“斯普特尼克”的刺。
68年后的今天,DeepSeek讓美國人看到了另一個“斯普特尼克”時刻。
02
大模型屆的拼多多
你試過DeepSeek了嗎?
趕快去試試。真不錯。推理能力,直逼OpenAI的ChatGPT o1。而且,不用翻墻。不用美國信用卡。也不用擔心,因為不慎被發現是中國用戶,而被系統“歧視性”封號。太揚眉吐氣了。
但這都不是最重要的。最重要的是:DeepSeek實在是太太太便宜了。
ChatGPT o1完成一次訓練的成本,據說要上億美金。而DeepSeek,只需要不到600萬美金。
1/20。便宜到不敢相信。
這就像有人指著一臺20萬的新能源車,說1萬賣給你。便宜到難以置信。你忍不住問,這臺是不是只會唱:爸爸的爸爸是爺爺?
美國科技界迅速對DeepSeek做了各種評測。然后,震驚了。這個“大模型屆的拼多多”,推理能力真和ChatGPT o1非常接近。
隨即,英偉達股票大跌17%。原來,訓練一個模型,并不需要像你們說的那么多GPU啊。DeepSeek,居然做到了所有硅谷科技巨頭都沒做到的事。
那么,DeepSeek,到底是怎么做到的呢?
被“逼”的。被“年級第一”的“小院高墻”策略逼的。
03
小院高墻
2018年,美國首次提出對華科技防御策略:小院高墻。關系到美國國家安全的“小院”(半導體和微電子,量子信息技術,和人工智能等等),對中國建設“高墻”(出口管制,限制簽證,和審查投資等等)。
隨后,2022年,美國開始禁止英偉達對中國出口高端GPU。這些GPU,對訓練AI大模型至關重要。
為什么???好好做朋友不行嗎?不做朋友,做生意也行啊。公平競爭,共謀發展。有必要這么藏著掖著防著嗎?
哎。你不理解“年級第一”的心態。
在一個班里,倒數第一和倒數第二,一般都是鐵哥們。但是正數第一和正數第二,基本都是死對頭。
以前我幫你輔導作業,是因為你是后進。你進步我很高興。可是萬萬沒想到,你居然不識好歹,才幫了幾天你就想取代我的“年級第一”了。這怎么行。橡皮是我的。GPU也是我的。以后再也不借給你了。
這就是“年級第一”的心態。
那怎么辦呢?就這么認輸嗎?沒有GPU,怎么訓練AI模型呢?
創新。
資源無限的時候,不需要創新。真正的創新,都發生在匱乏的時候。
比如:混合專家系統。
04
混合專家系統
混合專家系統,也就是Mixure of Experts。簡稱MoE。
我們去醫院看病。醫院的50個醫生,每個都是最好的全科醫生。內科、外科、兒科、心血管科、腦科、甚至婦科。什么都懂,什么都能治。這當然最好。但這樣的成本實在是太高了。因為每個醫生可能都要30年才能畢業。
這就像大模型。一個模型,有50個博士學位,能回答所有問題。這當然好。但是實在是太燒GPU了。
而且,GPU都在美國的小院里。我沒有啊。怎么辦呢?
也許你可以試試,把醫院分成不同的科室。內科的只管內科,外科的只管外科。這樣,“訓練”醫生難度不就降低了嗎?
用50個便宜的??漆t生,取代一個昂貴的全科醫生。然后,再設一個導診臺,根據病情,把患者分配給不同的醫生,問題不就解決了嗎?
這就是混合專家系統。
混合專家系統,大大降低了AI的訓練成本。
05
強化學習
訓練大模型還有一項重要的成本,是人工打標簽。
這張照片,是只小狗。那張照片,是只小貓。清楚標記出來,人工智能才不會學錯。用人工標簽,監督AI的學習過程。這就是“監督學習”(Supervised Learning)。
“監督學習”,給很多第三世界國家,創造了大量工作崗位。所以有句開玩笑的話:
有多少“人工”,就有多少“智能”。
那這個成本,能不能也省了呢?
孩子學習走路的時候,可沒有用什么打標簽的照片吧。這個姿勢是正確的,那個姿勢是錯誤的。孩子,請按照片上的姿勢走。從來沒有吧。
那孩子是怎么走路的?就是只管走就好了。摔倒了屁股會疼。走好了媽媽會抱。孩子會根據這種懲罰和獎勵的反饋,不斷自動調整姿勢,直到終于在一個瞬間,就突然會走路了。
這就是:強化學習。Reinforcement Learning。簡稱RL。用激勵函數,而不是打標簽的數據,來學習。從而大大降低訓練成本。
MoE+RL。
真不容易。為什么美國人沒有先做出來?
因為他們不缺GPU啊。很多創新,都是被“逼”出來的。
DeepSeek還有一個獨特之處,那就是:開源。
06
開源
有一個挺諷刺的事。你已經知道了吧。OpenAI,其實并不Open。
什么,你還不知道?那聽我和你好好說說。
ChatGPT 2.0之前,OpenAI是開源的。模型的代碼和權重,是對所有人公開的。但自從ChatGPT 3.0開始,OpenAI選擇了閉源。“OpenAI”變為了“CloseAI”。
其實,這也可以理解。訓練大模型實在是太燒錢了。逐漸大家也開始接受了:想要高質量的模型,就要選擇閉源。
直到,DeepSeek R1出現。并且開源。
可是,就算你的成本很低,只有OpenAI的1/20,也沒必要開源吧?畢竟你也要活下去???你開源,圖什么啊?
圖:生態。
我只有200個工程師。就算他們全是浙大、北大、清華畢業,也只有200個人。這點人手,根本無法和微軟、谷歌、OpenAI比。
那怎么辦?團結整個開發者生態。
我把所有的研究成果,模型代碼和權重,都免費公開給全世界。這樣,就會吸引大量開發者,來使用我的模型,測試我的模型,改進我的模型。
代碼很重要。但是生態更重要。
用代碼換取整個生態的幫助,可能才是對抗巨頭們的唯一方法。
明白了??墒牵悄阍趺椿钕氯ツ兀?/span>
別擔心。開源大模型,也能賺錢。
07
開源也能賺錢
開源大模型,至少有三種賺錢的辦法。
第一種,是“雙代碼模式”。
免費公開的基礎代碼。這對大部分人來說夠用了。但是對于一些大型企業來說,他們希望有的權限管理,分級管理,等等各種“高級能力”,可以收費。
第二種,是“保險費模式”。
是代碼,就會出問題。大公司對服務的穩定性、響應的及時性,要求很高。所以,大公司很可能會購買“保險”服務,確保遇到問題時,會有人會處理。
第三種,是“云服務模式”。
而對中小企業和個人,可以像用水和用電一樣,直接調用DeepSeek的API,使用DeepSeek的云端“智能資源”,然后按“度”(百萬token)付費。
不管是開源,還是閉源。只要創造了價值,都能賺到錢。所以,不用為DeepSeek擔心。
也不用為英偉達擔心。
08
杰文斯悖論
DeepSeek這個“大模型屆的拼多多”橫空出世。英偉達股票當天暴跌17%。投資人擔心大家不再需要那么多GPU了。
其實,大家不用太擔心。給你講個故事。
1776年,瓦特改良了蒸汽機。瓦特蒸汽機,比老式蒸汽機,節省2/3的煤炭。于是人們歡呼:煤炭的消耗,將從此大大減少。
但實際情況,恰恰相反。英國經濟學家杰文斯發現,蒸汽機的效率提高了10倍的同時,煤炭的消耗量不但沒有下降,反而上升了100倍。
為什么呢?
因為蒸汽機效率提升后,原來用不起煤炭的人,覺得自己用得起了。于是紛紛辦廠。工廠數量的激增,反而引起煤炭用量的劇烈反彈。
這就是著名的“杰文斯悖論”。
英偉達的顯卡同理。
DeepSeek大大提升了GPU的使用效率。這在短期內,可能會導致GPU的用量下降。但很快,就會有更多人因此加入模型訓練陣營,從而導致顯卡的需求激增。
果然。懵了的納斯達克,第二天就清醒了過來。英偉達股票回漲了8%。
回過神來后,在一片贊嘆聲中,也逐漸出現了各種質疑和批評。
比如:蒸餾。
09
蒸餾
美國白宮顧問David Sacks公開表示,有“實質性證據”證明,中國AI公司DeepSeek“蒸餾”(distill)了OpenAI模型。他把這種“蒸餾”行為,比作“偷竊”。
嗯……打不過,就誣陷嗎?“蒸餾”這個指控,很嚴重啊。
首先解釋一下,什么是“蒸餾”?
有兩個模型。一個老師模型(teacher model),一個學生模型(student model)。學生不斷向老師提問,并把“問題-答案”記錄下來。然后用這些“問題-答案”的數據,來訓練學生,從而讓學生擁有和老師非常接近的知識和能力。這就叫:蒸餾。
這就是蒸餾?。靠墒牵瑢W生向老師學習,也沒什么問題吧?
是的。學習是沒什么問題。但是,ChatGPT的用戶協議里明確寫著,不允許用我的模型,來訓練新的模型,尤其是訓練用來和我競爭的模型。也就是說,禁止蒸餾。用ChatGPT,就要遵守ChatGPT的使用協議。這是誠信問題。
另外,牛頓花了30年創造了萬有引力定律。我花了3天學會了萬有引力定律。雖然結果是,我們都懂了萬有引力定律。但是,我不能用我的3天,去嘲笑牛頓的30年。
所以,David的這個“蒸餾”指控,還是挺重的。
那么,我親愛的讀者朋友,你相信DeepSeek蒸餾了ChatGPT的模型嗎?
我確實不知道。我希望沒有。因為如果真有,那這篇文章前面所有文字,可能有部分就白寫了。
如果真的沒有,DeepSeek,我希望你能你起訴David。請求法院罰他賠償1美元。加在小紅書上連續道歉30天。
這樣的污蔑,太欺負人了。
10
曼哈頓計劃 2.0
DeepSeek這把火,為何燒疼了硅谷?
用游戲科學的創始人馮驥的話來說:因為這是一個“國運級”的機會。
為什么?因為AI不是一項普通的技術。它是一門能改變幾乎所有其他技術的技術。
哪個國家能率先實現通用人工智能(AGI),也許誰就能率先解決材料科學問題(武器更先進),率先解決蛋白質問題(醫療更先進),率先解決可控核聚變問題(能源更先進),以及其他很多問題。
這也是為什么,美國人把AI稱作曼哈頓計劃 2.0。
上個世紀,美國人發誓,一定要比德國人先研發出原子彈。這項計劃,就叫做作:曼哈頓計劃。現在,他們一定要比中國人先實現通用人工智能。甚至不惜各種封鎖。
哎。至于嗎。一起發展不好嗎?必須對中國封鎖嗎?
我用這個問題問AI。
中國的DeepSeek給我的回答是:
否。技術競合催生共贏,封鎖反噬創新生態。
說得真好。
而美國的ChatGPT給我的回答是:
否。但出于競爭與安全考量,美國可能選擇部分領域封鎖以維護技術優勢。
嗯。果然是美國的GPT。
作者:劉潤;來源:劉潤(ID:runliu-pub)
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網站,如涉及版權和名譽問題,請及時與本站聯系,我們將及時做相應處理;
3、歡迎各位網友光臨閱覽,文明上網,依法守規,IP可查。
內容 相關信息
? 昆侖專題 ?
? 高端精神 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 國策建言 ?
? 國資國企改革 ?
? 雄安新區建設 ?
? 黨要管黨 從嚴治黨 ?