中國AI人才圖鑑:59%的中國籍研究員隸屬美國研究機構

大資料文摘發表於2019-06-18

中國AI人才圖鑑:59%的中國籍研究員隸屬美國研究機構

大資料文摘出品

編譯:Walker、蔣寶尚

研究人員很容易被人們忽略,但不可否認,他們才是所有AI生態系統的核心組成部分。

長期以來,中國和美國在人工智慧方面的實力對比一直存在爭議,但相關的資料支撐較弱。

因此,根據專家認可的頂級AI年度會議上發表的論文,保爾森研究所宏觀政策智庫研究員在Macarpolo建立了一個原始資料集,為評估中美AI科研人員的數量和質量提供了一份充分的資料依據。

中國AI人才圖鑑:59%的中國籍研究員隸屬美國研究機構

領先的AI研究都是相對開源的,因此人才也是其生態系統組成部分中最容易被直接量化的指標之一。保爾森研究所蒐集了已發表的研究資料,試圖從人工智慧研究員的分佈,獲取各國人工智慧研究發展情況。

神經資訊處理系統大會(原名Neural Information Processing Systems,NeurIPS)是人工智慧和機器學習領域最重要的盛會。保爾森研究所對NeurIPS 2018論文進行了完整的分析,並從以下幾個方面得出了結論:

  • 研究質量 (基於頂級或高質量的研究);

  • 頂尖人才來自哪裡(基於作者的原籍國);

  • 人才的培養地(基於作者攻讀研究生的國家);

  • 以及作者現在學習或工作的地方(基於作者目前的隸屬關係)。

以下是一些研究要點

1.在頂尖的AI研究中,中國的研究人員所佔比例相對較小(約 9%),但高質量的AI研究中所佔比例較大(約25%)。

中國AI人才圖鑑:59%的中國籍研究員隸屬美國研究機構

根據研究員Joy Dantong ma最近對在NeurIPS 2018上發表的演講中對頂級論文作者進行的資料分析,在113名作者中有10人是中國國籍。

尤其值得注意的是,他發現,目前這十位中國國籍的精英論文作者都附屬於或即將加入美國研究機構(大學或公司)。這與Jeffrey Ding先前對 2017年NeurIPS演講的作者的分析相呼應,該分析發現,其中14%的作者來自中國,但目前只有1%在中國研究機構工作。

在2018年,我們對高質量(但非頂尖)出版物進行了相同的原籍國分析,發現在3824名作者中,約四分之一(955)是中國國籍。

這一發現表明,雖然中國國籍的研究人員還沒有完全攀登至AI研究金字塔的頂端,但他們在上層AI研究中佔了相當大的比例。

2.大多數中國國籍的研究人員都是在美國的研究機構中進行AI研究的。

中國AI人才圖鑑:59%的中國籍研究員隸屬美國研究機構

目前,在中國國籍的高階研究人員中,大多數(59%)隸屬於美國研究機構,33%隸屬於中國研究機構,約9%隸屬於加拿大、新加坡和日本等其他國家。

這表明,雖然大部分高階AI研究人員仍對美國研究機構趨之若鶩,但在中國研究機構中,這些研究人員中所佔比例遠遠高於頂級研究人員。

3.大多數在中國國籍的高階研究人員就讀於美國的高校,其中大多數畢業後在美國工作(見附註5)。

將近60% 的中國國籍的高階研究人員在美國讀研究生,35%在中國讀研究生,而7%在其他國家(澳大利亞和英國)就讀。

在畢業於美國院校的中國國籍的作者中,絕大多數(78%)目前在美國研究機構工作,僅有21%在中國研究機構工作。

結論

這些趨勢—尤其是中國國籍的研究人員學習和工作的地方--也受到政策變化和中美科技生態系統之間整體形勢的影響較大。

中國科技行業經過長達十年的崛起,已經大幅改變了許多在矽谷工作的中國籍技術人員的想法,他們中的許多人已經回國,到創業企業或中國科技巨頭公司工作。

美國近期對研究生簽證的限制經常會造成對在美國的中國國籍科學家遭到不公正的起訴,並且宣揚所有中國學生都是間諜的政治言論,這已經開始影響中國國籍AI科研人員的流動和滯留。有鑑於此,中國國籍並受過美國教育的研究人員將在何處工作的資料可能是一個滯後指標,在未來幾年可能會發生實質性變化。

這些影響是積極的(保護美國在頂級研究中的相對優勢)還是消極的(削弱美國吸引和留住人才的獨有能力),仍是一個不得而知的問題。這也是在本系列的後續文章中,我們將對這一問題構建新的資料集並繼續進行研究。

註釋和研究方法

1.NeurIPS是最重要的AI會議之一——特別是在目前最熱門的深度學習領域——但它仍然只是會議之一,在衡量各國AI科研人員方面必然有所欠缺的。因此,需要根據論文引用數量、其他會議、機器學習競賽等對AI科研人員進行更全面的考量,以便更全面地瞭解AI科研人員。我們打算在今後的分析實踐中增加替代措施。

2.基於對在2018年 NeurIPS發表演講的113名作者進行的調查,得出了排名1%的最頂級人才的資料。排名前20%的人才是根據對有中國姓氏的1,087作者中的69人進行隨機抽樣的估算(置信區間為+/-7.8%,置信水平為0.95)。然後,我們對這個樣本中的每一位作者進行了研究,以找到他們的原籍國、研究生院所在地和目前的工作隸屬關係。

3.為了給每位作者匹配原籍國,我們使用了他們的本科院校所在地作為首選替代值。對於受過高中教育的作者,我們根據他們高中的所在地認定其原籍國。

但這種替代法並不完美:對於在美國完成本科學業的中國國籍的研究人員,如果找不到關於他們高中所在地的資訊,就會被視為美國國籍。這可能會導致中國作者的比例略微偏低。但由於缺乏本科教育的資訊,某些擁有中國姓氏並在中國研究機構工作的作家被排除在外,因此這一偏差可能會被部分抵消。

4.在為跨國研究機構指定隸屬關係時,我們使用了公司或大學的總部所在地。例如,在北京為微軟亞洲研究院工作的中國國籍的研究員將被視為隸屬於一家美國研究機構,因為微軟的總部在美國。總部設在香港的研究機構被視為中國機構。

5.對於在美國讀研究生並留在美國研究機構的中國研究人員的估算基於一個更少的作者樣本。他們具有如下特點:中國國籍,在美國就讀研究生, 目前在與研究生院不同的地方工作。在樣本中符合這些特徵的14名作者中,目前有11人在美國研究機構工作,3人在中國研究機構工作。因此, 基於這些樣本的推斷的置信度較低(置信區間為+/-22%,置信度水平為0.95)。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2648031/,如需轉載,請註明出處,否則將追究法律責任。

相關文章