小資料人工智慧的巨大潛力

綠盟科技發表於2022-03-10

CSET簡報

Husanjot Chahal,Helen Toner,Ilya Rahkovsky

安全與新興技術研究中心(CSET)

執行摘要

本文簡要介紹了“小資料”人工智慧方法。這些方法可用於無標記資料或幾乎無標記資料可用的情況,降低我們對大資料(從現實世界收集的海量資料集)的依賴。根據人們對人工智慧的傳統認識,資料是一種重要的戰略資源,尖端人工智慧技術的任何重大進步都需要大量資料。這一認識過分強調了“大資料”的作用,忽略了小資料方法。實際上,這些方法因為不需要對海量資料集進行培訓而大有潛力。

本文分為兩部分。第一部分介紹了主要的小資料方法,將其分為五大類:遷移學習、資料標記、人工資料、貝葉斯方法和強化學習,闡述了它們的重要性。我們的目的不僅是指出小資料方法的潛在優勢,還為了促進非技術讀者對資料的認識,瞭解資料在人工智慧的恰當使用時機和方式。第二部分介紹了我們對CSET的原始資料集分析後得出的結論,評估了各種小資料方法已取得和預計取得的科研進展,介紹了這方面的領先國家以及這項研究的主要資金來源。根據我們的發現,本文總結出了以下四個關鍵點:

  1. 人工智慧不是大資料的同義詞,在各種小資料環境中可以使用多種替代方法。
  2. 遷移學習的研究發展尤其迅速(甚至超越了更大、更知名的強化學習領域),這意味著遷移學習未來可期,可能更有用武之地。
  3. 美國和中國在小資料方法方面的競爭非常激烈,美國在強化學習和貝葉斯方法這兩大類中處於領先地位,而中國在遷移學習這一增長最快的類別中保持著較小但不斷擴大的領先地位。
  4. 在小資料方法方面,遷移學習的投資份額相對於整個人工智慧領域而言較小,因此,美國政府可嘗試在遷移學習方面增加資金投入。

概述

根據傳統認識,尖端人工智慧依賴於大量資料。對人工智慧的這一認識讓資料成為了一種重要的戰略資源,一個國家(或公司)可以訪問多少資料被視為人工智慧進步的關鍵指標。人們對於資料在人工智慧中的作用的認識並非毫無道理,畢竟,當前許多人工智慧系統確實使用了大量資料。但決策者若以為這是所有人工智慧系統的永恆真理,就未免有失偏頗。過分強調資料,就會忽略有些人工智慧方法,這些方法不需要大量的標記資料集或從現實世界互動中收集資料。本文將這些方法稱為“小資料”方法。

我們所說的“小資料”並不是一個明確的類別,因此不存在公認的統一正式定義。學術著作討論小資料的應用時,通常將其與樣本規模聯絡起來,例如,KB/MB級別與TB級別的資料。媒體科普文章試圖基於可用性和人類認知等各種因素描述小資料,有的作者認為小資料蘊含了有用資訊,且因其規模和格式而易於訪問,方便應用,尤其是商業決策。資料被大量引用後往往成為通用資源。然而,資料具有不可替代性,不同領域的人工智慧系統需要不同的資料和方法來解決具體問題。

本研究從決策者的角度來描述小資料。政府部門通常被認為是人工智慧領域的潛在重要參與者,因為他們能夠接觸到真實世界的互動,並且能夠收集到海量資訊,例如氣候監測資料、地質調查、邊境控制、社會保障、選民登記、車輛和駕駛員記錄等。在對各國人工智慧競爭力進行比較時,許多人都將中國列為擁有獨特優勢的國家,因為中國由於人口眾多、資料收集能力強且缺乏隱私保護能接觸到更多的資料。我們撰寫這篇文章,部分原因是為了介紹一些技術,改變這些想當然的看法。

最後,有人認為,政府組織只有數字化、清理和標記大量資料,才能從人工智慧革命中受益。雖然這不無道理,但認為人工智慧的所有進展都取決於這些條件卻有失偏頗。這一想法忽略了未來的人工智慧可能不僅僅與大資料有關,也沒有認識到,政府部門(以及其他部門)在不對大資料基礎設施進行大規模投資的情況下仍然可能實現人工智慧的創新。

本文的目的不僅是指出小資料方法的潛在優勢,還為了促進非技術讀者對資料的認識,瞭解資料在人工智慧的恰當使用時機和方式。本簡報可作為小資料方法(可最小化對“大資料”依賴的方法)的入門讀物。它分為兩部分:第一部分從技術上解釋了何為“小資料”方法,包括哪些類別以及它們的重要性。這部分為第二部分的資料分析奠定了概念基礎。第二部分基於原始CSET資料集,特別是我們的學術文獻總庫(囊括了世界90%以上的學術成果),從研究進展、國家競爭力和資金三個方面,介紹了我們在小資料方法研究方面的發現。我們調查了這些方法已取得和預計會取得的科研進展,指出了領先國家以及研究的主要資金來源。最後,本文基於前文所述發現,總結出了四個關鍵點。

“小資料”方法分類

本文的研究圍繞五大類“小資料”方法展開:a)遷移學習;b)資料標記;c)人工資料生成;d)貝葉斯方法和e)強化學習。下文會對這些方法進行詳細介紹。需要注意的是,這種分類並非十全十美。人工智慧和機器學習研究覆蓋了多種方法、手段和範例,用於解決各類問題,因此難以進行簡單分類。我們之所以介紹這些分類是為了讓讀者瞭解一些粗略的概念方法,使用這些方法,即使無法獲得大量的預標記資料集,也能訓練人工智慧系統。我們這裡所述的類別在實際使用中並沒有清晰界定,它們既不互斥,也不代表全部方法。

遷移學習的工作原理是,首先學習如何在有充足資料的環境中執行任務,然後將在那裡學到的知識進行“遷移”,在可用資料很少的環境中執行任務。這一方法適用於以下場景:只有少量標記資料可用於目標問題、但有大量標記資料可用於相關問題。

例如,有人開發了一個珍稀鳥類識別程式,每種鳥可能只有幾張照片,每一張都標明物種。要進行遷移學習,可以先使用更大、更通用的圖片庫(如ImageNet)來訓練基本的圖片分類器。ImageNet標記了數百萬張圖片,橫跨數千個類別。在分類器區分出狗和貓、花和水果、麻雀和燕子後,再給它提供小得多的稀有鳥類資料集。然後,該模型便可以“遷移”學到的圖片分類知識,利用這些知識從少得多的資料中學習新任務,即識別珍稀鳥類物種。

資料標記方法適用於標記資料有限、未標記資料充足的環境。這類方法使用多種途徑來理解可用的未標記資料,例如自動生成標籤(自動標記)或識別特別適用標籤的資料點(主動學習)。

例如,主動學習已被用於皮膚癌診斷研究。圖片分類模型先在100張被標記為皮膚癌或健康皮膚的照片上訓練,接下來,再訪問更大的潛在訓練圖片庫,從中再選擇100張照片進行標記並新增到訓練資料中。為了從可用資料中學習到儘可能多的資訊,該模型判斷哪些圖片能提供更多的資訊用以區分健康皮膚和皮膚癌,再選取這些照片進行標記。

人工資料生成方法透過建立新的資料點或使用其他相關技術,儘可能從少量資料中提取最多的資訊。這類方法簡單如對現有資料進行微小更改(例如,對圖片分類資料集中的圖片進行裁剪或旋轉),複雜到推斷可用資料的底層結構並基於此進一步外推。

一個簡單的例子是,計算機視覺研究人員已經能夠使用計算機輔助設計(CAD)軟體(從造船到廣告等行業廣泛使用的工具)生成日常物體的真實3D影像,然後使用這些影像來擴充現有的圖片資料集。所需資料若有單獨的資訊源(本例中的眾包CAD模型),這種方法更可行。在其他情況下,可能需要更復雜的方法。一般來說,資料生成需要對相關資料做出某種強假設,而生成的資料是否有用取決於這些假設的有效性。

生成額外資料不僅在處理小型資料集時有用。如果資料可能包含敏感資訊(例如個人的健康記錄),但研究人員需要了解資料的總體分佈,則可以使用合成資料對資料進行隨機更改以降低其可識別性,從而隱藏隱私資訊。

貝葉斯方法是機器學習和統計學中用到的一系列方法的集合,這些方法有兩個共同的特點。首先,它們都試圖將問題的結構資訊(即所謂的“先驗”資訊)明確納入問題的解決方案中。這與大多數機器學習方法形成了對比,後者傾向於對問題進行最小假設。貝葉斯方法在基於可用資料進一步改進之前會合入這些“先驗”資訊,因而更適合於資料有限、但可以用數學形式寫出問題資訊的環境。其次,貝葉斯方法側重於對預測的不確定性進行精確的估計。這在可用資料有限的環境中很有幫助,因為估計不確定性可以更容易地識別資料點,如果收集到這些資料點,將對降低不確定性意義重大。

在使用小資料上,貝葉斯方法已被用於監測全球地震活動,以探測地震和驗證核條約。研究人員開發一個模型,合入地震學中的先驗知識,就可以充分利用現有資料來改進模型。

貝葉斯方法是一個龐大的家族,不僅僅包括那些特別擅長處理小資料集的方法。簡而言之,為了追求研究的全面性,我們納入了該大類,儘管其中的部分方法可能使用了大型資料集。

強化學習是一個廣義術語,指的是一種機器學習方法,即代理(計算機系統)透過試錯學習如何與環境互動。強化學習常用於訓練遊戲系統、機器人和自動駕駛車輛。

例如,強化學習已被用於訓練人工智慧系統玩影片遊戲,不管是簡單的街機遊戲(如乒乓球)還是戰略遊戲(如星際爭霸)。無論是簡單遊戲還是複雜遊戲,系統一開始都對遊戲玩法知之甚少(或一無所知),但透過不斷嘗試並觀察哪些行為產生正獎賞訊號來一步步學習。(在影片遊戲的例子中,獎賞訊號通常以玩家得分的形式出現。)

強化學習系統最終往往還是要學習大量的資料,需要大量的計算資源,因此在這裡,它們似乎不太合時宜。儘管如此,我們還是將它們包括在內,因為它們使用的資料通常是在系統訓練時(一般是模擬環境)生成的,而不是事先收集和標記。在強化學習問題中,代理與環境互動的能力至關重要。

圖1展示了上述各類方法的聯絡,每個點代表某一類別的一個研究叢集(即一組論文)。方法細節見附錄。兩個研究叢集之間的連線粗細代表了彼此之間引用關係的強度。沒有連線表示不存在引用關係。如圖所示,雖然叢集確實傾向於與同一類別中的其他叢集聯絡最多,但不同類別的叢集之間也存在相當多的聯絡。此外,“強化學習”叢集形成了一個特別連貫的分組,而“人工資料”叢集則分散得多。

圖1.小資料研究叢集網路圖

資料來源:截至2021年2月12日的CSET學術文獻總庫

小資料方法的意義

與資料密集型方法相比,不依賴預先收集的大型標記資料集的人工智慧方法具有許多優勢,比如:

縮小大、小型實體之間的能力差異

大型資料集對於人工智慧應用的重要性越來越大,而不同組織收集、儲存和處理所需資料的能力存在差異。這樣,就有可能產生人工智慧“富人”(如大型科技公司)和“窮人”,區別就在於誰有能力滿足這些需求。如果遷移學習、自動標記、貝葉斯方法等允許在資料較少的情況下應用人工智慧,則小組織在資料方面的進入壁壘將會降低。這樣,就會縮小大、小實體之間的能力差異。

減少收集大量個人資料的需求

幾項調查表明,大多數美國人認為人工智慧會大大減少個人隱私。之所以有這種擔憂,是因為大型科技公司為訓練人工智慧演算法,不斷收集越來越多與個人身份相關的消費者資料。小資料方法無需收集大量實際資料來訓練機器學習模型,因而有望緩解這種擔憂。特別是能夠人工生成新資料(如合成資料生成)或使用模擬訓練演算法的方法,它們不依賴個人生成的資料,或者合成資料以刪除敏感的個人身份屬性。儘管減少收集大量實際資料的需求並不等於可以徹底解決隱私問題,但使用這些方法,機器學習無需大規模收集、使用和披露消費者資料,緩解了隱私洩露問題。

推動缺乏資料點的領域的發展

人工智慧的許多最新進展都是由可用資料的爆炸性增長促成的。然而,對於許多重要問題,可能根本沒有或只有極少量資料能輸入人工智慧系統。例如,想象一下,為沒有電子健康記錄的人構建預測疾病風險的演算法,或者預測活火山噴發的可能性。小資料方法可以系統性處理資料的缺乏或缺失,比如,透過遷移相關問題的知識,同時利用標記和未標記資料來實現。小資料的用處還體現在可以利用手中的少量資料點建立更多的資料點,或者利用相關領域的先驗知識,還可以透過模擬或編寫結構性假設嘗試進入新領域。

避免髒資料問題

大型組織雖然有資料,但要做到乾淨、結構整齊、便於分析還有很長的路要走,這時就可以使用小資料方法。例如,由於孤立的資料基礎設施和遺留系統,美國國防部擁有大量“髒資料”,要清潔、標記和整理這些資料既耗時又費力。資料標記方法(例如自動生成標籤)可以簡化大量未標記資料的處理過程。

遷移學習、貝葉斯方法或人工資料方法透過使用相關資料集、結構化模型或合成資料,可以縮小待清理資料的數量,從而顯著緩解髒資料問題。

宏觀上,我們還認為,對於從事人工智慧相關工作的決策者來說,重要的是要明晰資料在人工智慧發展中所能發揮和不能發揮的作用。上述因素對本文所述方法並非完全適用。例如,強化學習通常需要大量資料,不過,這些資料是在訓練過程中生成的(例如,當人工智慧系統移動機械臂或在虛擬環境中導航時),而非事先收集。

發現

為了瞭解小資料方法的研究進展,我們使用CSET的研究叢集資料集來查詢與上述五類方法(遷移學習、資料標記、人工資料生成、貝葉斯方法和強化學習)相關的研究。研究叢集指具有引用關係的一組科學研究文章,例如,研究人員表示使用了其他研究人員的想法、方法、結果等。

為進行分析,我們圍繞上述五類方法確定了150個研究叢集。為進行比較,還挖掘出了735個人工智慧叢集。這150個叢集共有約80,324篇論文,收錄在CSET的學術文獻總庫中,該庫包含超過90%的全球學術成果。為了確定哪些論文屬於“小資料”類別,我們首先與技術專家合作,為每個類別定義了一組關鍵字。接下來,我們按照這些關鍵字搜尋,找出反覆提及關鍵字的論文,再劃分到對應叢集中。最後,手動排除與小資料顯然無關的叢集。在確認了150個可用叢集后,我們將每一叢集與所定義的類別關聯,叢集中的所有論文均屬於對應類別。採用這種方法時,我們儘量在準確性和全面性之間達到平衡,但是,仍有很大可能因為論文沒有提及本研究領域中的其他作者而遺漏了這些論文,或者有些研究論文可能由於引用而關聯到某叢集,但實際上與本文論題並無直接聯絡。因此,特此提醒讀者,下文分析僅為初探,而非最後定論。有關研究方法的詳細資訊,參見附錄A。

在下述幾小節中,我們從研究進展、國家競爭力和資金方面介紹了我們對研究叢集中所有論文的研究結果。我們希望透過這些分析,發現這些方法的當前和預期科研進展,判斷哪個國家處於領先地位以及這項研究的主要資金來源。

研究進展

就研究量而言,我們的五類“小資料”方法在過去十年中有著迥然不同的軌跡。如圖2所示,就論文數量而言,強化學習和貝葉斯方法是最大的兩類。貝葉斯叢集中的論文數量在過去十年中穩步增長,而強化學習叢集從2015年才開始增長,然後在2017年至2019年間增長尤為迅速。這可能是由於深度強化學習由於技術挑戰直到2015年才取得革命性進步。與這兩個叢集相比,在過去十年中,人工資料生成和資料標記研究論文的年產出數量較低。

最後,遷移學習類在2010年開始規模較小,但到2020年已呈現大幅增長趨勢。

圖2.2010–2020小資料論文發表趨勢

資料來源:截至2021年2月12日的CSET學術文獻總庫

當然,論文數量與論文質量是兩碼事。我們使用兩個指標來評估各類叢集中論文的質量:H指數和年代修正引用量。H指數是一個常用指標,反映論文(本文中指各類叢集中的論文)的出版活躍度和總引用影響。然而,H指數的一個限制是,它不考慮論文發表年限(也就是說,較老的論文因為發表時間較早會有更多的累積引用量)。因此說,該指數忽略了這一事實,即最有影響力的論文發表時間較短,尚未被大量引用。針對這種情況,我們根據論文發表年限對引用量進行了修正,如圖3所示。從圖中可以看出,僅在H指數上,強化學習和貝葉斯方法大致相等,但考慮到論文的年代,強化學習排在首位。這意味著,就我們的研究叢集而言,貝葉斯方法的累積影響似乎更大,但實際上,強化學習因近幾年在論文產出和引用方面的激增而更為突出。

圖3.2010–2020各類論文的H指數和年代修正引用量

資料來源:截至2021年2月12日的CSET學術文獻總庫

然而,如果以為強化學習在過去十年中增長最快,那就錯了。圖4進一步揭示了各類別隨時間增長的情況。如圖所示,2011至2020年間,遷移學習的增長最為穩定,除兩年外,在其餘所有年份的增長都最高。此外,人工資料生成在過去五年中也有增長,這在圖3中不太明顯,因為該類別的論文總數較少。然而,2012至2015年期間,該類別的增長資料出現了大幅度下滑,因此很難對其增長軌跡得出具體結論。

圖4.2011–2020各類論文同比增長率

資料來源:截至2021年2月12日的CSET學術文獻總庫

圖5根據CSET開發的預測模型,對各類別的三年預測增長進行了比較,並增加了“總體人工智慧”論文作為基準進行比較。如圖所示,遷移學習是預測增長速度超過總體人工智慧研究的唯一類別,遠超其他所有類別,與前幾年的增長趨勢一致。

圖5.2023年各類論文預測增長率

資料來源:截至2021年2月12日的CSET學術文獻總庫

說明:未來增長指數根據CSET對研究叢集增長的預測計算。有關研究方法的詳細資訊,參見附錄A。

國家競爭力

在本節中,我們透過觀察全球前10個國家在各類小資料方法中取得的研究進展,探討各國在小資料方法中的競爭力。我們使用簡單的指標,如發表論文數量和年代修正引用量,初步瞭解各國在各類方法中的相對地位。希望讀者探索其他指標,以充分揭示各國在小資料方法方面的潛力。

表1列舉了按小資料出版物排名的前10個國家的各類論文總數。

與人工智慧研究的總體結果一致,中國和美國在小資料相關的研究論文中佔據前兩位,緊隨其後的是英國。中國在資料標記和遷移學習方法方面的學術出版物總數中處於領先地位,而美國在貝葉斯方法、強化學習和人工資料生成方面處於領先地位。

表1.按各類出版物數量排名的全球前10名國家

資料來源:截至2021年2月12日的CSET學術文獻總庫

有意思的是,除了美國和中國之外,所有小資料研究排名前10位的國家都是美國的盟友或合作伙伴,而俄羅斯之類的國家均沒有出現在名單上。不過,這一資料趨勢也可能是因為我們對於有多國作者參與的論文進行了多次統計,這樣,美國及其盟國的研究人員合作的論文就會因為重複計算而導致統計數字高於實際數字。對合作論文進行分析後,我們發現這一判斷基本正確。

論文引用量常被用來衡量研究質量和影響。我們的研究結果表明,中國的研究論文不僅數量大,質量也高,涉及多個小資料類別。如表2所示,根據基於出版年代修正過的論文引用量(可以大概理解為年引用數量),中國在遷移學習和資料標記方法方面繼續處於領先地位。中國研究水平排名的唯一變化是貝葉斯方法,其影響位列第三,落後於英國。這意味著,儘管中國可能撰寫了大量關於貝葉斯方法的論文,但與其他方法相比,中國在這一領域的研究質量和影響顯然落後。從年代修正引用量來看,美國在各領域的研究水平均處於前列。

表2.按年代修正引用量排名的全球前10國家

資料來源:截至2021年2月12日的CSET學術文獻總庫

圖6顯示了按國家細分的三年增長預測。從圖中可以明顯看出,中國在遷移學習方法方面的預期增長將大大超過美國和其他國家。如果這一預測準確的話,將意味著中國可能在遷移學習方面進一步甩開其他國家,至少在發表論文數量上是如此。

圖6.美國、中國和其他國家2023年分類增長預測

資料來源:截至2021年2月12日的CSET學術文獻總庫

說明:未來增長指數根據CSET對叢集增長的預測計算。有關研究方法的詳細資訊,參見附錄A。

資金來源

我們分析了小資料方法研究的資金來源,預測哪些實體可能會為研究論文提供資金。需要特別注意的是,僅有約20%–30%的研究論文有資金資訊,而有資金資料的論文和沒有資金資料的論文之間並不一定存在系統性差異。

無論是哪一學科的研究,在政府、公司、學術界和非營利組織中,政府往往是最大的資助者,而論文作者通常屬於學術界。基於這一認識,我們將小資料研究的結果與總體人工智慧研究進行了比較,以瞭解兩者差異。值得注意的是,在全球範圍內,政府資金在本文所述小資料方法中所佔的份額要比在總體人工智慧中所佔的份額更大。如圖7所示,政府在全部五個類別中的資金佔比均高於在總體人工智慧研究方面的資金佔比。我們還發現,與其他人工智慧方法相比,非營利組織在小資料研究中所佔的資金比例較小。貝葉斯方法的資助模式與總體人工智慧的資助模式最為相似。

圖7.小資料方法與總體人工智慧研究的資金佔比比較

資料來源:截至2021年2月12日的CSET學術文獻總庫

圖8按國家進一步展示了政府實體提供的資金資訊。我們的研究結果表明,儘管政府資金的總體趨勢是向小資料研究傾斜,但美國政府在小資料研究方面的資金份額低於其在總體人工智慧研究中的份額。另一方面,與總體人工智慧研究相比,美國的私營部門公司更傾向於為小資料研究提供資金(詳見附錄B圖9)。

圖8.中國、美國和其他國家小資料方法與總體人工智慧研究的政府資金佔比比較

資料來源:截至2021年2月12日的CSET學術文獻總庫

其他國家的資料反映了幾乎完全相反的趨勢,政府資金在小資料研究中的份額要高得多,特別是與私營部門相比。我們注意到,與總體人工智慧相比,非營利組織(如研究信託機構和基金會)不太願意為小資料研究提供資金(詳見附錄B圖10)。

在中國,除了人工資料生成外,政府對小資料方法的資金投入份額小於總體人工智慧,儘管差距沒有美國那麼明顯。

關鍵要點

本文概要介紹了人工智慧的一系列“小資料”方法。根據我們的調查結果,總結如下:

人工智慧並非僅指大資料,尤其是預標記大資料集。大資料對於過去十年間蓬勃發展的人工智慧所起的作用是不可否認的,但將大規模資料收集和標記視為人工智慧進步的先決條件卻會誤導決策者。

還存在許多其他方法,可根據具體情況在不同的環境中使用。例如,如果某一問題的資料很少,但相關問題的資料豐富,那麼可使用遷移學習;如果可以在模擬或真實環境中,使用代理透過試錯而不是預先收集的資料進行學習,則需要使用強化學習方法來解決問題。

對遷移學習的研究尤其迅速—甚至超過了更大、更知名的強化學習領域。這意味著遷移學習未來可期,可能更有用武之地。因此,決策者解決問題時若缺乏資料,可嘗試發掘相關資料集,以此為起點,進行遷移學習。

根據我們基於叢集的研究方法,在五種方法中,美國和中國在小資料方法方面的競爭非常激烈,在每一類別中,兩國都位列前兩位(按研究論文數量)。美國在兩種主要方法(強化學習和貝葉斯方法)中領先,在遷移學習這一增長最快的類別中,中國具有微弱優勢,但這種優勢還在不斷擴大。

美國政府可以嘗試將遷移學習作為加大資金投入的主要目標。相對於對總體人工智慧領域的投資,美國政府在小資料方法上的投資份額較小。這可能是因為小資料研究並未得到美國政府的重點關注,也可能是因為私營部門的資金向這些領域傾斜。無論是哪種原因,鑑於遷移學習迅速崛起,美國政府可能會增加在這方面的資金投入。

作者介紹

Husanjot Chahal、Helen Toner和Ilya Rahkovsky分別是CSET的研究分析師、戰略主任和資料科學家。

附錄A:方法

確定研究叢集

本文采用了CSET資料科學團隊建立的現有研究叢集資料集。研究叢集指透過引用關聯的一組科學研究論文。用於判斷研究叢集的論文均取自CSET的科學文獻總庫,該庫涵蓋五大資料集,約佔世界學術產出的90%:維度(Dimensions)、微軟學術圖譜、中國知網、arXiv和科學網(Web of Science)。文獻庫包括1.098億篇中文、英文、法文、德文、日文、葡萄牙文、西班牙文等語言的研究論文,覆蓋範圍廣,涉及國家多,適合進行國與國之間的比較。在本文中,我們使用了CSET截至2021年2月12日的資料。

對於每一研究叢集,CSET的資料科學團隊提取了論文標題和摘要中最常見的短語(一個或多個形容詞與名詞的組合)。撰寫本文時,我們利用這些提取的短語找出了這五個領域(遷移學習、資料標記、人工資料生成、貝葉斯方法和強化學習)的研究叢集。在技術專家的幫助下,我們列出了可識別這五類研究的短語,經過篩選,最終確定瞭如下研究叢集:

  • 遷移學習:相關研究叢集中,有10%或更多的論文中至少出現了一個下列短語:“遷移學習”、“零次學習”(zero-shot learning)、“一次性學習”(one-shot learning)、“小樣本學習”(few-shotlearning)。
  • 資料標記:相關研究叢集中,有10%或更多的論文中至少出現了一個下列短語:“自動影像標註”、“半監督學習”、“主動學習”。
  • 人工資料生成:相關研究叢集中,有10%或更多的論文中至少出現了一個下列短語:“合成資料”、“虛擬樣本生成”。
  • 貝葉斯方法:相關研究叢集中,有10%或更多的論文中出現了包含“貝葉斯”(如“貝葉斯推斷”、“貝葉斯網路”等等)的短語,有超過10%的論文圍繞人工智慧展開。
  • 強化學習:相關研究叢集中,有10%或更多的論文中出現了“強化學習”這一短語。

本文使用的基本方法是透過文獻計量聚類進行科學對映(science mapping),在網路中發現社群。我們用提取的短語在透過引用關聯的叢集中進行搜尋,用較小的短語集來發現相關的小資料社群。然而,這種基於引用的方法可能搜尋出與主題並不直接相關的論文,這些論文由於引用關係而與某一叢集相關;也可能遺漏了一些未被其他論文引用的相關論文。此外,考慮到涉及的資料量之大,對數千份論文采用聚類方法很難驗證,我們最終不得不在準確性和包容性之間做出抉擇。為在兩者之間達到平衡,我們採取瞭如下兩個步驟。

首先,我們手動檢測短語搜尋結果,確定閾值,低於該閾值,絕大多數叢集都與論題無關。我們發現,在所有的研究叢集中,若僅有不到10%的論文提及我們所提取的短語,則該叢集不太可能聚焦於相關主題,因此加以忽略。其次,對於超過10%閾值的各研究叢集,我們篩選了前10篇核心論文、前10篇被引用最多的論文和前10個短語,確認是否與特定主題相關。與主題明顯無關的研究叢集有91個,均被刪除,其中包含3個遷移學習、17個資料標記、10個人工資料生成、15個貝葉斯方法和46個強化學習叢集。這樣,就剔除了短語使用意義不同的叢集,例如,有些叢集的“主動學習”指的是教育中的學習方式,有些叢集的“強化學習”主要針對心理學領域,還有的叢集主要關注的是數學或統計學而不是機器學習或人工智慧本身。

下表列出了我們所識別的研究叢集資訊,以供參考:

表3.小資料領域研究叢集的基本資訊

類別

識別的研究叢集數量

研究叢集內論文數量(2010–2020)

研究叢集內人工智慧論文所佔比例(平均)(最低值,最高值)

遷移學習

9

8,102

78%(52%,89%)

資料標記

16

11,405

74%(31%,88%)

人工資料生成

4

1,433

45%(6%,85%)

貝葉斯方法

78

32,247

41%(10%,85%)

強化學習

43

27,137

63%(7%,94%)

總計

150

80,324


資料來源:截至2021年2月12日的CSET學術文獻總庫

增長預測

我們的研究結果參考了“未來增長指數”,該指數根據CSET對研究叢集增長的預測計算得出。CSET根據研究叢集出現極端增長(即2020至2023年,叢集中的論文數量年增長率超過8%)的機率對其進行了排名。為更直觀地呈現這些排名,本文使用的未來增長指數取各類叢集的平均預測排名的倒數,然後乘以10萬。

例如,在55,000個參與排名的叢集中,遷移學習類別的叢集在極端增長機率方面平均排名3761位。根據上述公式,遷移學習的增長指數就等於1/3761×100000=26.6。

對於按國家細分的增長預測,我們選擇了各國發表的所有小資料論文以及這些論文所屬的研究叢集。然後,根據每篇論文的研究叢集確定其增長排名。最後,根據每個國家每一叢集中的論文數量,得到增長排名的加權平均值。

比較資助模式

在CSET資料庫中的所有小資料研究論文中,約30%有資金資料可查。透過這些資料,可瞭解到相關資助實體及其來源國的資訊。這其中的許多論文(大約佔所有論文的20%–30%)可查到資助實體型別(政府、公司、學術界和非營利組織)。基於這些資訊,我們計算了各部門為這些論文提供的資金佔比。下表列出了各實體對五類小資料論文以及總體人工智慧論文提供的資金佔比。

表4.各實體為論文提供的資金佔比

資料來源:截至2021年2月12日的CSET學術文獻總庫

為了探究小資料方法和總體人工智慧資助模式的差異,我們從各類別佔比中減去總體人工智慧論文的佔比,得到兩者的百分點差異。具體資訊,見“發現”一節。

附錄B:其他圖表

本附錄中的三張圖分別展示了各國公司、非營利組織和學術機構對小資料研究的資助資訊。

加上圖8所示的政府實體資料,這四張圖將本文研究的四種實體型別的論文資助資訊進行了完整展示。

圖9顯示了私營部門公司對小資料研究的資助份額。與政府實體相比,美國的私營部門似乎更傾向於資助小資料而非總體人工智慧研究。

圖9.中國、美國和其他國家的公司實體在小資料方法與總體人工智慧方面的資助對比

資料來源:截至2021年2月12日的CSET學術文獻總庫

圖10給出了各國非營利組織(如研究信託機構和基金會)的小資料資金趨勢。在大多數類別中,與總體人工智慧相比,美國和除中國之外的其他國家的非營利組織往往對小資料研究缺乏資金支援。相比之下,中國的非營利組織對小資料研究有少量資金傾斜,但人工資料生成方法除外,該領域資金投入少於總體人工智慧研究。

圖10.中國、美國和其他國家的非營利組織在小資料方法與總體人工智慧方面的資助對比

資料來源:截至2021年2月12日的CSET學術文獻總庫

最後,圖11展示了學術機構對小資料研究的資助模式。請注意,與我們上面討論的其他兩種實體型別相比,學術機構對小資料研究和總體人工智慧提供的資金百分比差異非常小,總體上不到1個百分點。因此可以得出結論,在所有國家,學術界對小資料研究的資助模式與對總體人工智慧的資助模式一致。

圖11.中國、美國和其他國家的學術界在小資料方法與總體人工智慧方面的資助對比

資料來源:截至2021年2月12日的CSET學術文獻總庫


相關文章