導讀:在自然界當中,群體智能廣泛存在,諸如蜂群、蟻群以及魚群的聚集。而從宏觀上說,人類社會的不斷發展和演化也是一種群體智能現象,絕大多數文明成果都是人類個體在長期群體化、社會化的生產生活中逐漸演化形成的產物。
群體智能研究正是新一代人工智能的重要方向。
在2022北京智源大會首日的特邀報告環節,中國科學院院士梅宏發表了題為「如何構造人工群體智能」的主旨演講。梅宏院士介紹了群體智能研究的歷史與最新進展,并討論了如何構造基于「探索-融合-反饋」機制的群體智能模型,舉例說明了群體智能規律在自組裝、拼圖、知識圖譜構建等任務中的應用。(注:本文由第三方整理,未經本人審閱)
01
群體智能研究前世今生?
群體智能是科學家長期關注并研究的自然現象。早期的研究工作觀測到,很多低等社會性生物群體中有一種看似矛盾的現象:不具備智能或者能力非常有限的個體所構成的群體展現出遠遠超出個體能力的智能行為。這種在低等社會性生物群體層面上展現出的智能通常被稱為「群體智能」(Swarm Intelligence)。
「群體智能」廣泛存在于自然界中,例如:
(1)黏菌聚合:當環境中食物匱乏時,黏菌會聚合形成變形蟲,進行更大范圍的移動;
(2)封群筑巢:蜂群通過大規模群體協同構筑蜂巢;
(3)魚群避敵:魚群通過大規模的群體協同躲避敵人;
(4)蟻群尋食:蟻群通過大規模群體協同在環境中發現和運輸食物。
數十年來,科學家們嘗試對「群體智能」現象做出解釋。1959 年,法國動物學家 Pierre-Paul Grasse 提出環境激發效應(Stigmergy),用于解釋低等生物群體中的智能現象。Stigmergy 一詞由兩個希臘詞根構成:stigma(刺激)和 ergon(工作),即受到刺激而進行工作。
基于環境激發效應,群體智能的現象形成過程如下:個體在環境中留下的蹤跡會被群體中的其他個體感知到,并刺激這些個體在環境中留下新的蹤跡,從而不斷產生正反饋。環境激發效應描述了個體之間通過環境形成間接交互的機制。
人類社會中也存在大量「群體智能」現象,例如:在沒有規劃和指揮的情況下,草坪上會涌現出彎彎曲曲的小路;任何一個草坪上的小路放任不管,沒有規劃也沒有人的指揮,會形成幾條彎彎曲曲的小路。法國心理學家勒龐在群體心理學經典著作《烏合之眾》中指出,受到有效激勵和鼓勵后,群體匯聚的能力會產生驚人破壞力。中國俗語「三個臭裨將,頂個諸葛亮」生動形象地說明了智力平平的個體團結在一起也可能做出高質量的決策。市場經濟中「看不見的手」也可以對大規模市場資源進行有效配置。
從宏觀上說,人類社會的不斷發展和演化也是一種群體智能現象,絕大多數文明成果都是人類個體在長期群體化、社會化的生產生活中逐漸演化形成的產物。
02
群體智能研究?
近年來,《完美的群體》、《群體的智慧》等科普性圖書的出現提升了大眾對于群體智能的關注度。2010 年,在《科學》雜志上發表的論文「Evidence for a Collective Intelligence Factor in the Performance of Human Groups」用定量的方式觀察到物理空間中的小群體在協同求解問題時存在群體智能現象。該論文將針對個體智能的度量統計方法應用于群體智能的度量,提出了名為「c factor」的度量指標。在物理空間中 2-4 人的群體任務求解過程中,作者觀察到:群體智能與個體的平均智能或最高智能弱相關;與個體平均社會敏感度、個體對話平等度以及群體中女性的比例強相關。此例也在一定程度上印證了「三個臭裨將,頂個諸葛亮」的說法。
2005 年,《科學》雜志曾提出過 125 個有待研究的科學問題。其中,排名第 16 的問題為「人類合作行為如何演化形成」。科學家們觀察到,合作行為在低等生物之間以及人類社會中廣泛存在。達爾文曾指出「互惠」是一種有效的個體適應策略,從而試圖解釋這種合作行為。
然而,目前仍然缺乏充分的證據來解釋自然選擇如何導致互惠與合作行為形成。去年,《科學》雜志與上海交通大學再次聯合發布了 125 個科學問題,明確提出「群體智能如何涌現形成」的科學問題,進一步將問題擴展到了「人-機混合群體」中。為了研究群體智能的涌現機理,需要使用科學方法對群體智能進行觀察和度量,還要開發可以有效促進群體智能形成的可組裝基本模塊。
當前的群體智能研究主要針對物理空間中低等生物的群體智能現象展開,普遍采用「觀察現象-發現規律-解釋現象」的科學研究方法。通常而言,傳統的群體智能研究動作較少關注現象規律的應用,仍停留在解釋規律和現象的層面,需要更好地將這些規律用于構造求解特定問題的人類群體智能系統中。實際上,早年間計算機領域的科研人員已經在演化算法中將生物群體中的規律應用于優化問題求解,其中群體由一組具有預定行為規則的簡單虛擬個體構成。這是人們在這一方向上的初步探索案例之一。
在傳統的群體智能研究場景下,阻礙人們利用規律構造人類群體智能系統的主要原因在于:
(1)對群體智能形成機理缺乏充分理解,尚無權威共識。無法確保求解特定問題時群體智能可以重復可控地發生。
(2)物理空間受限,阻礙了人類群體智能的形成。在物理空間中匯聚大規模人群的成本太高。管理效率有時會隨著人數增多而降低,人類群體很難在局部物理空間內長時間同步高效工作。
03
網絡空間中的群體智能?
互聯網的誕生拓展了空間,為群體智能研究帶來了新的可能性。網絡空間中的群體不再受地域和時間限制,可以構建更大規模松散人類群體,個體之間通過同步、異步、顯式、隱式的方式更加靈活地交互。互聯網技術的不斷發展促進了網絡空間中人類群體智能系統探索的成功實踐。近年來,人類群體智能在網絡空間中得到了廣泛的體現,例如:
2014 年,研究人員在《美國科學院院刊》(PNAS)上發表了 EteRNA,展示了利用群體的力量在游戲環境中設計 RNA 分子結構。基于群體智能開發的 UnanimousAI 平臺可以來用群體的力量求解單項選擇題,實現了更準確的肺炎診斷。
被廣泛使用的維基百科是群體智能在互聯網場景下應用的典型案例。自從 2001 年上線以來,維基百科已經囊括了逾百萬條詞條,編輯次數達到了 6600 萬次,注冊用戶超過 300 萬人,而管理員的數量僅 77 人。維基百科之所以能夠取得成功,離不開環境激發效應和基于版本管理的信息融合等技術,能夠通過大規模用戶的持續協同不斷提高詞條的規模和質量。
數據集ImageNet是通過 AMT 眾包平臺構建而來,眾包方法是由公司組織將原本由雇員承擔的任務通過公開征集的方式外包給未知外部群體。眾包方法之所以能夠成功,是由于這些問題可以被充分分解或天然地表現為一組小任務,信息融合的難度較低。
近年來,以 Linux Kernel、Apache 等開源項目為代表的軟件開源運動在世界范圍內如火如荼地進行,大規模協作產生的開源軟件的質量和系統規模均達到了較高的水平。開源軟件的成功得益于開發信息的有效記錄和管理,實現了自上而下的任務分解與自下而上的信息融合相結合。
然而,現有的互聯網空間中的群體智能本質上是對互聯網跨時空匯聚能力的利用。人們基于互聯網的通訊能力,針對特定問題精心設計群體力量的利用方案,但對于群智規律和機理的認識和探討則較為缺乏。
目前形成的網絡空間的群體智能現象仍然處于相對比較初級階段,與低等生物大群體完成的「跨越」式的智能程度提升差距較大。研究者也無法確保群智現象可以在人們的控制下重復發生。
同時,物理空間群智機理探索和網絡空間的應用實踐仍缺少有效的結合。網絡空間關注如何利用群體的力量,物理空間則主要針對低等生物群智現象的觀察和解釋,目前還鮮有將二者結合的工作。
04
群體智能規律的工程應用?
從工程技術學科的角度出發,研究人員試圖利用群體智能規律解決實際問題。為了實現這一目的,需要研究以下問題:
(1)群體智能的形成機理是什么?
(2)群體智能能否成為求解問題的基本方法之一?
(3)如何構造求解特定問題的人類群體智能系統?
(4)群體智能的能力邊界在哪里?
05
群體智能的定位與理解?
理想形態的群體智能具有兩種基本的性質,即「智能放大效應」和「規模可擴展性」,規模龐大的群體可以有效放大個體的智能。從本質上說,群體智能來源于自主個體之間的大規模有效協同。從哲學的角度來看,可以用「量變產生質變」來解釋群體智能現象。從復雜系統的視角來看,可以認為這「涌現」和「自組織」也體現了自主個體的大規模協同。因此可以將群體智能理解為一種利用群體力量求解復雜問題的方法,無法僅依靠個體有效求解這種復雜問題,即存在「1+1>2」的放大效應。
從微觀層次上看,群體智能呈現出兩種基本原理:
(1)自上而下:當問題能夠被很好分解時,不同個體之間可以進行分工協作,從而發揮每個個體的長處,大大提升整體效率。
(2)自下而上:個體都可以看到部分片段,具有關聯性的不同信息片段融合后自然形成信息增加。
宏觀層次上的群體智能是由大量持續出現微觀層次群體智能現象(問題分解、群智匯聚等)復合形成的。凱文·凱利在《失控》一書中寫道這是:「一種由默默無聞的零件通過永不停歇的工作形成緩慢而寬廣的創造力」。
宏觀群體智能的基本原理包含以下三點:
(1)探索:群體中的個體自主地對當前問題進行探索,得到該問題的一組信息;
(2)融合:所有個體探索到的信息通過某種方式被融合;
(3)反饋:融合活動產生的群體信息通過某種方式反饋給個體,刺激個體進行持續地探索。
在物理空間中利用群智機理的難度較大,可行性較低。首先,從表層意義上來說,物理空間中群體智能的可控性較差,時間跨度過大。從深層因素上說,在物理空間中召集足夠參與者的成本太高,信息的傳播速率太慢,信息依賴于具有足夠寬廣的知識面的重要人物才能融合。此外,物理空間的信息反饋是被動的,要求個體主動尋找信息。
網絡空間的出現為更好地利用群體智能帶來了可能。以較低成本匯聚足夠多的參與者,信息傳播速度足夠快,從而形成了自發涌現的網絡空間群體智能現象。
然而,如何在信息融合時降低對重要人物的依賴,將被動式反饋轉變為主動式反饋成為了構建理想形態的群體智能要解決的關鍵問題。在理想狀態下,每個個體能夠自由探索,信息可以通過機器自動融合,并且可以根據個體的特點反饋。
06
理解群體智能的構造性模型?
傳統的群體智能研究(如環境激發效應)大多關注事后解釋。在這里,研究者則嘗試人工構造求解特定問題的群體智能系統。
群體智能的構造性模型 EIFL 如上圖所示,「信息激發、信息融合、信息反饋」循環中,梅宏院士首先嘗試有效激發每個個體提供問題相關信息片段的積極性,再對不同個體提供的信息進行有效融合,最后考慮如何將融合后的信息有效地反饋給每個個體。
根據群體智能發生的空間(物理空間、網絡空間)和信息融合的方式(自然、半人工、人工),可以將群體智能系統按照如上圖所示的方法進行分類。
在物理空間下,自然發生的群體智能現象包括蜂群筑巢,蟻群尋食等;半人工發生的群智現象則主要指些實驗室環境下受到人工干預的自然界群體智能,尚未發現全人工產生的群體智能。
在網絡空間下,原始的信息存儲傳播系統(例如,BBS、郵件列表、開源、眾包等)都是自然發生的群體智能;半人工群體智能包括維基百科、前文提到的 RNA 設計等工作;而全人工的群體智能是一種理想狀態,指的是互聯網上具有高效信息融合和個性化信息反饋能力的系統。
根據群體的構成方式,可以將群體劃分為以下三類:
(1)由自然生命體構成的群體:蟻群、人群
(2)由人造智能體構成的群體:機器人群體
(3)混合群體:人-機混合,低等生物-機器混合。其中,研究者通常將人類群體智能稱為 Collective Intelligence,將低等生物或者非人類智能體的群體智能稱為 Swarm Intelligence。
07
「探索-融合-反饋」系統的示例?
如前文所示,可以基于「探索-融合-反饋」機制構建能夠解答單項選擇題的 Swarm AI 智能體。好比將問題的選項都放在冰面上,冰面上有一個鐵質的冰壺,每個個體(選擇的可能答案)都持有一個磁鐵。在探索時,每個個體用磁鐵對冰壺施加引力;在融合時,所有施加在冰壺上的力匯聚成一個合力;在反饋時,合力會導致冰壺發生移動,每一個個體可以觀察到冰壺的移動。合力走向會影響每個個體的判斷,每個個體觀察冰壺的移動也可能改變主意。
EteRNA是按照游戲方式來進行 RNA 分子結構設計,有許多人參與,大約一周完成一次「探索-融合-反饋」循環。在探索時,每個個體在各自的工作空間中設計 RNA 分子結構并提交;在融合時,每個個體對他人提交結果進行投票,選出前 8 名,8 個設計方案綜合在一起并采用特定的指標對綜合結果進行評估;在反饋時,融合的結果對所有個體公布,個體在此基礎上進行下一輪探索工作。
人類文明中知識體系的形成大體也遵循「探索-融合-反饋」的機制。對于任何一個問題、很多個體、小團體總在不斷的探索和嘗試。在某一個時刻,出現一個重要的人物,把探索結果匯聚起來,將前人的經驗、實踐結果融合成論著。論著被廣泛傳播以后又反過來改進人類對現實世界的認知。在互聯網誕生后,人類的知識創新能力又得到了進一步提升。
08
基于群體智能的自組裝?
在電影《超能陸戰隊》中,存在一種磁力機器人,能夠大規模聚集在一起,組成各種形狀。受此啟發,研究者也研究能否采用「探索-融合-反饋」的基本原理,通過構造性模型,實現大規模群體在非中心控制情況下的自我成型。
梅宏院士團隊借鑒昆蟲的「趨光性」設計了一種人工光場進行信息的融合和反饋。團隊根據每個個體的當前位置確定光場狀態,光場驅動個體進一步改變位置。
如上圖所示,沒有被占據的網格位置融合形成藍光光場,已經被占據的網格融合形成紅光光場,這是融合過程。每個個體可以得到周圍局部光場的信息,并根據局部光場信息得到了反饋意見,再進行新的探索。實驗結果表明,在具有充分多樣性的形狀的任務集合上,該方法展現出很好的效率、規模可擴展性、穩定性。
09
基于群體智能的拼圖?
拼圖問題是一類復雜問題的典型代表,這類問題無法通過自上而下、集中控制的方式進行有效求解,不具有中間層次的可分解性,只能采取自下而上的方式求解。
基于「探索-融合-反饋」機制的群體拼圖過程如上圖所示。在探索過程中,每一個體自主進行拼圖,拼圖結果被表示為由圖塊以及圖塊之間的鄰接關系形成的圖;在融合時,所有個體當前時刻的拼圖結果被融合在一起,形成當前時刻的群體觀點圖,個體遇到困難時,系統會顯式地從當前群體觀點圖中獲取共識。在反饋時,研究者根據個體當前時刻的拼圖動作將當前時刻群體觀點圖中相關的具有較高可信度的鄰接關系反饋給當前個體,與當前個體關注點相關的共識被用于即時輔助,作為響應式反饋。在后續的拼圖過程中,隨著問題求解的推進和群體共識的收斂,反饋會持續增強。
實驗結果表明,當群體中的個體數在 1-10 的區間內時,拼圖求解所需的時間與玩家數量成反比;以最強個體為基準,拼圖效率提升了 31%-64%。
10
基于群體智能的知識圖譜構建?
知識圖譜是人工智能領域的研究熱點。目前,研究者還不能完成對專業領域的知識圖譜的自動化構建,必須要求大量人類專家的參與。研究者嘗試基于「探索-融合-反饋」的群體智能技術研發能夠幫助知識圖譜構建的工具。
在探索階段,每個參與者根據自己的理解構建個體知識圖譜,個體與個體之間的聯系表現為節點和節點之間的帶標簽有向圖。在每次探索活動中,個體根據自己的探索結果提供知識片段,建立并完善實體及其屬性信息。針對未定義的實體/關系類型進行自定義補充。
在融合階段,可以通過熵最小化形成對齊個體知識圖譜。在多人協同構建知識圖譜時,平臺將多人構建的知識主動融合,形成群體知識圖譜。
基于廣義熵最小化的知識圖譜融合算法,與當前最好方法比,在 Hit@1 指標上取得 1% 到 27% 的提升。通過在知識圖譜融合中加入反饋響應信息,指標又有所提升。在包含 1-64 個個體的人類群體中,對四大名著等多個領域知識圖譜進行構建:隨著群體規模不斷提升,個體構建效率和群體制品規模不斷提升,算法表現出良好的規模可拓展性。
11
基于群體智能的軟件開發?
軟件是一種具有復雜邏輯結構的人造知識制品,規模和復雜性持續增長,開發困難性不斷增加。研究者試圖研究能否將群體智能用于軟件的生產和持續演化。
從某種意義上說,開源運動群體力量的應用示例。但是,當前開源過程中的智能程度仍然不夠,對于個體智能的匯聚能力還遠未達到期望的標準。
在國家自然科學基金委支持下,由梅宏院士牽頭的團隊聯合北京大學、國防科技大學、北京航空航天大學、南京大學、北京理工大學開展了「基于互聯網群體智能的軟件開發方法研究」。
該研究關注的科學問題是:互聯網環境下,軟件開發群體智能的形成、度量、調控。該科學問題又可以被分解為以下三個重要的子問題:面向軟件開發的互聯網群體智能形成核心因素是什么?如何對群智化軟件開發的質量和效率進行量化度量分析?如何對于群智化軟件開發能不能進行有目的的調整、影響和控制?
該研究包含 5 項具體的研究內容:
(1)群智化軟件開發基本原理與技術框架
(2)軟件開發中海量信息的融合與反饋
(3)面向特定類型軟件制品(代碼、模型)的群智化構造
(4)群智化軟件開發效用度量與優化
(5)群智化軟件開發支撐環境與示范應用。
研究工作從兩個視角展開:
(1)群智一般性原理:探索群體智能一般性原理在軟件開發問題中的應用
(2)群體軟件開發現狀:從群體軟件開發現狀出發發現問題,提升群智能力。
12
代碼管理中的群體智能研究?
軟件都是通過代碼編寫而成。以版本庫為核心的群體軟件開發是目前被廣泛采用的軟件開發方式,已經存在「探索-融合-反饋」的循環回路。在探索時,程序員針對特定軟件開發任務,對代碼進行修改,將結果提交至某個版本的分支;在融合時,采用經典的文本行差異比對算法將當前代碼變更融合至目標版本分支;在反饋時,研究者將融合結果反饋給程序員,若存在沖突則進一步修改代碼,消除沖突。然而,現在的「探索-融合-反饋」的循環回路的效率和質量仍不盡如人意。
以提升 EIF 回路的效率為目標,梅宏院士團隊從以下三個方面展開了研究:
(1)代碼變更智能融合:以圖的方式表示不同版本的代碼,采用圖對齊算法對代碼進行融合。在一方變更存在重構情況下,此方法可以實現88%正確率和90%的召回率。與基于文本的算法相比,沖突數減少60%,沖突行減少91%。與基于樹的算法相比,沖突數減少12%,沖突行減少78%。
(2)代碼變更智能分解:基于「關注點分離原則」,采用圖分割算法對代碼變更進行面向任務的分解,確保所提交代碼變更的高內聚性。在無人工介入時,準確率達到了 71%-84%。
(3)代碼變更智能分析與反饋:以圖的方式表示帶嗎,挖掘代碼圖中的共性模式和異常點,識別潛在風險。
13
軟件建模中的群體智能研究?
模型也是軟件的一種重要的存在形式。在當前主流的軟件開發中,模型隱藏在代碼中。從軟件工程的角度來看,在理想的軟件開發中,模型應該獨立存在。軟件建模與模型轉換是軟件開發的核心創造活動,模型是現實的抽象。代碼是模型在特定運行環境中的「實例化」,存在大量瑣碎的實現細節。
研究者試圖探索以模型為核心、基于群體智能的軟件開發方式。具體而言,會面臨以下五項技術挑戰:
(1)如何基于現有軟件代碼制品構造模型
(2)如何將多維度的模型進行組織和管理
(3)如何對外提供模型的查詢和復用服務
(4)如何支持模型與代碼之間的一致演化
(5)如何基于模型資產庫構造與演化軟件
該工作針對移動 App 場景展開,旨在通過富模型資產庫的構造與應用,促進軟件開發演化中面向模型的 EIFL 回路的形成。在模型構造階段,重點研究模型的挖掘和融合;在模型應用階段,重點研究模型的查詢、模型制導的測試腳本更新、模型制導的代碼更新等問題。
14
軟件測試中的群體智能研究?
當下的開源平臺匯聚群智的能力仍然不足。在沒有符合要求的國產開源平臺進行測試的情況下,研究者采用了眾包測試平臺開展了一系列實驗。
然而,當前的眾測實踐還沒有形成高效、高質量的 EIFL 回路,更多依靠眾測工人隨即探索發現漏洞,缺少對工人群體提交信息的有效融合,缺乏對群體工作行為的有效引導和調控。研究者希望構建一種基于 EIFL 回路的群智軟件測試機制與平臺。
研究者根據測試問題特殊性,建立了人機協同機制,以測試報告為核心的迭代式的探索融合反饋回路,支持群體構成、測試需求及策略等動態調整。
目前,基于圖文融合分析的測試報告融合方法在包含 5000 多個測試報告數據集上可以準確檢測并聚合 87% 的重復報告。基于圖文融合分析測試報告評估方法,與當前最好的方法相比有比較大的準確度提升,同時大幅降低了時間開銷。
15
對于群體智能軟件開發的思考?
在對該項目進行復盤時,梅宏院士認為,該項目的難度遠遠超出了預期。究其原因,主要在于目前尚無完全「自底向上」的自由探索式軟件開發的先例,自頂向下軟件開發的任務分解難度大、缺乏統一標準,軟件結構一旦形成便難以更改,缺乏滿足要求的開源社區平臺,眾包軟件測試任務復雜度遠低于開源軟件開發。
16
結語?
在梅宏院士看來,群體智能是一種自然現象,是自然產生的。對群體智能機理的認識非常重要,利用好群體智能機理具有更加重要的工程意義。「基于互聯網群體智能的軟件開發方法研究」在群體智能構造性模型(EIFL)、人工群體智能(ACI)等方面取得了一定進展,在下游任務中進行了構造 ACI 系統的初步探索。
未來,梅宏院士團隊將針對特定問題領域進一步探討ACI的構造、評估,并探索群體智能的能力邊界。希望面向軟件開發場景,構造覆蓋權全生命周期的系統。
文章來源于智源社區 轉自人工智能學家微信號
1、本文只代表作者個人觀點,不代表本站觀點,僅供大家學習參考;
2、本站屬于非營利性網站,如涉及版權和名譽問題,請及時與本站聯系,我們將及時做相應處理;
3、歡迎各位網友光臨閱覽,文明上網,依法守規,IP可查。
作者 相關信息
內容 相關信息
? 昆侖專題 ?
? 高端精神 ?
? 新征程 新任務 新前景 ?
? 習近平治國理政 理論與實踐 ?
? 我為中國夢獻一策 ?
? 國資國企改革 ?
? 雄安新區建設 ?
? 黨要管黨 從嚴治黨 ?
圖片新聞