在可預見的未來幾年,人工智能將在國家和國際安全中發揮重要作用。因此,美國政府正在考慮如何控制人工智能相關信息和技術的傳播。由于難以對通用人工智能軟件、數據集和算法進行有效管控,現代智能系統所需的計算機硬件自然成為關注重點。領先的、專業的“人工智能芯片”對于經濟、高效地大規模應用人工智能至關重要。對此,美國喬治敦大學安全與新興技術中心(Center for Security and Emerging Technology,CSET) 發布報告《人工智能芯片:概念內涵及其重要性》,重點介紹何為人工智能芯片,為什么其對于大規模開發和部署人工智能不可或缺,并分析人工智能對國家競爭力的影響。
一、產業發展青睞人工智能芯片而非
通用芯片
(一)芯片創新的規律
包括通用的中央處理器(Central Processing Unit,CPU)、專用芯片(如人工智能芯片)在內的所有計算機芯片的發展都得益于較小的晶體管,相比于較大的晶體管,前者運行更快,功耗更少。不過,至少在21世紀頭10年,盡管晶體管的尺寸收縮速度很快,并帶來了巨大的速度和效率提升,專用芯片的設計價值仍然很低,通用CPU占據主導位置。
隨著縮小晶體管的技術不斷發展,芯片中的晶體管密度持續增加。20世紀60年代,摩爾定律指出,芯片中的晶體管數量大約每兩年翻一番。遵從該定律,CPU速度得到了極大的提高。晶體管密度增加對速度的提升主要通過“頻率縮放”(frequency scaling)來實現,即晶體管在開(1)和關(0)狀態之間切換得更快,從而允許給定的執行單元在每秒進行更多計算。此外,晶體管尺寸的減小降低了每個晶體管的功耗,使芯片的效率也獲得了很大的提高。
隨著晶體管的縮小和密度的增加,新的芯片設計成為可能,新的芯片運行效率和速度得到進一步提升。CPU可以集成更多不同類型的執行單元,這些執行單元能夠針對不同功能進行優化。同時,更多的片上存儲器可以減少對片外存儲器的需求,從而提升訪問速度。此外,CPU可以為實現并行而非串行計算的架構提供更多空間。與此相關的是,如果晶體管密度的增加使得CPU更小,那么單個設備可以容納多個CPU,實現同時運行不同的計算。
(二)摩爾定律的減慢與通用芯片的衰落
隨著晶體管縮小到只有幾個原子大小,其尺寸正迅速接近絕對下限,小尺寸下的各種物理問題也使得進一步收縮晶體管尺寸在技術上更具挑戰性。這使得半導體行業的資本支出和人才成本以不可持續的速度增長,新芯片制程技術節點的引入速度比過去更慢。因此,摩爾定律正在放緩,也就是說,晶體管密度翻倍所需的時間越來越長。
在通用芯片占主導地位的時代,其成本可分散在銷售的數百萬個芯片中。而專用芯片雖然實現了針對特定任務的改進,但無法依靠足夠的銷量來彌補高昂的設計成本,其計算優勢很快就被下一代CPU抹去了。如今,摩爾定律的放緩意味著CPU不再快速改進,通用芯片的規模經濟效應遭到破壞。與此同時,一方面,半導體能力的關鍵改進已經從制造驅動轉向設計和軟件驅動;另一方面,人工智能應用需求不斷增長,需要依托專用芯片實現高度可并行、可預測的計算。
這些因素驅動芯片向人工智能專用化方向發展,促使人工智能芯片奪取CPU的市場份額。
二、人工智能芯片的主要特征
人工智能芯片是一種常見的專用芯片,具有一些共同的特點。一是與CPU相比,人工智能芯片可以并行執行更多計算;二是能夠采用低精度計算模式成功實現人工智能算法,但同時減少相同計算所需的晶體管數量;三是通過將整個算法存儲在單個人工智能芯片中來加速內存訪問;四是使用專門的編程語言來有效地翻譯人工智能計算機代碼,以便在人工智能芯片上執行。需要闡明的是,人工智能芯片是計算機芯片的特定類型,能夠高效、高速實現人工智能計算,代價是在其他通用計算中只能以較低的效率和速度運行。
人工智能芯片包括三種類型:圖形處理器(GPU)、現場可編程邏輯門陣列(FPGA)和專用集成電路(ASIC)。GPU最初用于圖像處理。2012年,GPU開始越來越多地用于訓練人工智能系統,這種應用從2017年起占據主導地位。GPU有時也用于推理。然而,盡管GPU可以提供比CPU更高程度的并行性,它仍然是為通用計算而設計的。相比于GPU,專用FPGA和ASIC效率更高,在推理方面的應用變得愈發突出,ASIC還越來越多地被用于訓練。FPGA包括很多邏輯塊(即包含一組晶體管的模塊),邏輯塊之間的互連可以在芯片制造后由程序員重新配置以適應特定算法,而ASIC則包括為特定算法定制的硬連線電路。前沿的ASIC通常能比FPGA提供更高的效率,而FPGA則比ASIC更具定制化能力,能夠隨著算法的發展促進設計優化。相比之下,ASIC則只能隨著算法的迭代變得越來越過時。
機器學習是一種實現人工智能的重要方法,主要涉及到訓練(Training)和推斷(Inference)。簡單來說,訓練也就是搜索和求解模型最優參數的階段。當模型參數已經求解出來,使用和部署模型,則稱為推理。考慮到訓練和推理中每項任務對芯片的要求不同,二者可能采用不同的人工智能芯片。首先,訓練與推理需要不同形式的數據并行和模型并行,在一些相同的計算步驟基礎上,訓練還需要一些額外的計算步驟。其次,訓練實際上總是受益于數據并行,但推理并非如此,例如有時可能只需要對單個數據塊執行一次推理。最后,根據應用場景的不同,效率和速度對于訓練和推理的相對重要性可能會有所不同。
人工智能芯片的商業化取決于其通用能力的程度。GPU早已被廣泛商業化,FPGA的商業化程度較低。同時,ASIC設計成本高,專業化特征導致低銷量,比較難以商業化。不過,人工智能芯片的預計市場規模增長可能會創造必要的規模經濟效應,從而使應用更窄的ASIC盈利。
人工智能芯片依據性能的不同,可以分為不同的等級。在高性能領域,服務器級人工智能芯片通常用于高性能的數據中心,并且在封裝后比其他人工智能芯片更大。中等性能的芯片是消費者常用的個人計算機人工智能芯片。在低性能領域,移動人工智能芯片通常用于推理,并集成到一個還包含CPU的芯片系統中。
三、為什么人工智能需要尖端的人工
智能芯片
人工智能芯片的效率和速度通常比CPU高10—1000倍。一個效率是CPU 1000倍的人工智能芯片提供的改進效果相當于26年摩爾定律驅動的CPU改進效果。
(一)從成本—效益視角分析使用尖端人工智能芯片是否有效
前沿人工智能系統需要的不僅是人工智能芯片,還是最先進的人工智能芯片。普通芯片體積更大、運行更慢、耗能更高,導致人工智能模型訓練過程中,功耗成本將迅速膨脹到無法承受的水平。
通過對比尖端人工智能芯片(7納米或5納米)與普通芯片(90納米或65納米)的成本,可得出兩大結論。在生產和運營成本方面,使用尖端人工智能芯片會比普通芯片節約更多的經濟成本。因為普通芯片使用2年后耗費的電費成本將會是芯片本身成本的3—4倍,并且隨著時間推移還將逐年增加。而尖端人工智能芯片耗費的電費成本剛剛超過芯片本身的成本。其次,據估計,生產和運行5納米芯片的成本需要8.8年才能與7納米的成本持平。因此,在8.8年以下,7納米芯片更便宜,而在8.8年以上,使用5納米芯片更便宜。因此,只有當用戶預計使用5納米節點芯片8.8年時,他們才有動力更換現有的7納米節點芯片。
通常來說,企業會在運營大約三年后更換服務器級芯片,但是如果購買5納米芯片,他們可能會期望更長的使用時間,所以市場需求的放緩也與摩爾定律正在放緩的規律相匹配。由此預測,3納米芯片可能在很長一段時間內都不會推出。
(二)芯片成本和速度是計算密集型人工智能算法的瓶頸
企業在人工智能相關計算上花費的時間和金錢已成為該技術進步的瓶頸。鑒于尖端人工智能芯片比舊版芯片或尖端CPU更具成本效益和速度,人工智能企業或實驗室需要此類芯片來繼續推動智能技術進步。
首先,DeepMind開發了一系列領先的人工智能應用(如AlphaGo),有的訓練成本甚至高達1億美元。OpenAI報告稱,其2017年總成本為2800萬美元,其中有800萬美元用于云計算。如果用舊版人工智能芯片或尖端CPU來運行計算,則計算成本會乘以30甚至更多,這將使此類人工智能訓練或實驗在經濟上令人望而卻步。計算成本增長如此之快,可能很快就會達到上限,因此需要最高效的人工智能芯片。
其次,領先的人工智能實驗可能需要數天甚至一個月的訓練時間,而部署的關鍵人工智能系統通常需要快速或實時的推理。使用舊版人工智能芯片或尖端CPU將極大地增加這些時間,使人工智能研發所需的迭代速度以及部署的關鍵人工智能系統的推理速度慢得令人無法接受。
以上分析的一個局限是,最近的一些人工智能突破并不需要大量的計算能力。此外,研究人員正在開發需要最少訓練的人工智能算法。對于這些算法,成本或速度可能不會成為瓶頸。
四、結語
尖端人工智能芯片是推動人工智能快速發展的重要引擎。美國及其盟國在半導體行業中具有一定競爭優勢。其中,美國公司在人工智能芯片設計方面擁有較大優勢,包括用于設計芯片的EDA軟件。美國、中國臺灣地區和韓國的公司控制著絕大多數芯片制造廠(“晶圓廠”),這些工廠有足夠的能力制造尖端人工智能芯片。美國、荷蘭和日本公司共同控制著晶圓廠使用的半導體制造設備市場。但隨著中國在前沿芯片產業方面的發展,美國及其盟國的上述優勢可能會消失。
文章來源于元戰略 ,作者元戰略;圖片來源網絡 侵刪
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網站,如涉及版權和名譽問題,請及時與本站聯系,我們將及時做相應處理;
3、歡迎各位網友光臨閱覽,文明上網,依法守規,IP可查。
作者 相關信息
內容 相關信息
? 昆侖專題 ?
? 高端精神 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 國策建言 ?
? 國資國企改革 ?
? 雄安新區建設 ?
? 黨要管黨 從嚴治黨 ?