南京人才地圖出爐,材料技術、生物醫藥、人工智慧、積體電路領域成特色優勢

AMiner學術頭條發表於2020-10-21
對於南京,你的第一印象是什麼?

對於南京市近年來出臺的各項人才政策,你的感受又如何?

你有想過去南京生活嗎?
南京人才地圖出爐,材料技術、生物醫藥、人工智慧、積體電路領域成特色優勢
來源:PixaBay
當今時代,國際競爭、國內競爭、城市競爭、企業競爭,歸根到底是人才的競爭。也許,大家或多或少都能從各種渠道,對南京這座古老又現代的城市有所瞭解。但是今天,學術君就帶領大家一起透過 AI+大資料,瞭解一下南京的人才現狀和人才環境。

眾所周知,過去三十年,南京集聚了優質學者人才,不斷推動著南京綜合實力和核心競爭力的增長。而根據不久前,智譜·AI 在清華校友三創大賽頒獎典禮暨南京中華門創將創新成果大會上釋出的《寧聚寧需人才地圖》,過去五年,南京凝聚了江蘇省內重點領域大部分的高階人才。

其中,南京的生物醫藥領域高層次人才凝聚最多,約佔江蘇省 28%,佔全國 2%;南京的人工智慧領域高層次人才第二,約佔江蘇省 52%,約佔全國 3%;南京的積體電路領域高層次人才第三,約佔江蘇省 62%,約佔全國 4%。

從重點領域來看,南京高階科技人才在材料領域的數量最多,在人工智慧、新能源汽車和智慧電網領域較強。其中,人工智慧領域,南京市關鍵人才數量前十的機構之中,南京大學的高層次學者數量最多,為 48 位,論文總發表量和被引用數也最高。
南京人才地圖出爐,材料技術、生物醫藥、人工智慧、積體電路領域成特色優勢
《寧聚寧需人才地圖》

《寧聚寧需人才地圖》是智譜·AI 藉助科技情報大資料探勘與服務系統平臺 AMiner,針對南京重點發展科技領域(材料技術、生物醫藥、人工智慧、積體電路、新能源汽車、智慧製造、智慧電網)建立的智慧人才系統。

該系統選取近 5 年期間相關領域國際頂級期刊和會議所收錄的全部論文資料,透過挖掘和分析論文資料,獲取論文學者資訊;透過命名排歧和資訊抽取等大資料分析和挖掘技術,對重點科技領域的專家學者進行學者畫像,構建領域人才智庫,然後根據學者畫像資訊進行領域人才相關情報挖掘分析。

從圖中我們可以看到人工智慧、生物醫藥、材料技術、積體電路等等多個當下熱門領域的多方面資訊。所呈現的資料點面結合,既包括南京該領域的人才動態、城市人才分佈、南京人才機構排名,也有該領域的全國人才分佈、全國發展情況以及南京與省份城市的影響力對比。
南京人才地圖出爐,材料技術、生物醫藥、人工智慧、積體電路領域成特色優勢
南京市人才影響力
南京人才地圖出爐,材料技術、生物醫藥、人工智慧、積體電路領域成特色優勢
南京市與其他省份中心城市人才與產業能力比較
南京人才地圖出爐,材料技術、生物醫藥、人工智慧、積體電路領域成特色優勢
南京市人工智慧領域人才指數
人工智慧領域,南京市的人才健康指數在全國排行第三,人才主要集中在棲霞區與玄武區;在基礎科研影響力上較為突出,南京大學和東南大學在該領域人才數量較多、成果影響較大。資料探勘”、“特徵提取”、“人臉識別”等詞是該城市該領域的科研熱點。
南京人才地圖出爐,材料技術、生物醫藥、人工智慧、積體電路領域成特色優勢
南京市生物醫藥領域人才指數
在生物醫藥領域,南京市的人才健康指數在全國排名第四,人才主要集中在棲霞區與江寧區;在基礎研究熱度與基礎科研影響力上較為突出,在該領域的人才機構排名中,南京大學一騎絕塵。“細胞凋零”、“細胞週期”、“非小細胞肺癌”等詞是該城市該領域的研究熱點。
南京人才地圖出爐,材料技術、生物醫藥、人工智慧、積體電路領域成特色優勢
南京市材料技術領域人才指數
在材料技術領域,南京市的人才健康指數在全國排名第三,人才主要集中在棲霞區;在基礎科研影響力上較為突出,產業創新方面稍弱,在該領域的人才機構排名中,南京大學和東南大學在該領域人才數量較多、成果影響較大。“數值模擬”、“晶體結構”、“透射電子顯微鏡”等詞是該城市該領域的研究熱點。
南京人才地圖出爐,材料技術、生物醫藥、人工智慧、積體電路領域成特色優勢
南京市積體電路領域人才指數
在積體電路領域,南京市的人才健康指數在全國排名第二,僅次於北京,人才主要集中在棲霞區、秦淮區和玄武區;在基礎科研影響力和產業創新上較為突出,在該領域的人才機構排名中,東南大學和南京大學名列前茅。“無線通訊”、“Mimo 通訊”、“正交分頻多工”等詞是該城市該領域的研究熱點。

此外,科技情報大資料探勘與服務系統平臺 AMiner 還結合人工智慧學術知識圖譜,深度挖掘了目前南京各個領域學者的職業生涯資訊。感興趣的讀者可以訪問 AMiner 平臺進行檢視。

那麼,這麼詳細、視覺化的人才地圖,是怎麼做出來的呢?

學術君也和《寧聚寧需人才地圖》背後的研發團隊進行了交流。研究人員指出,該智慧人才系統依託清華大學高質量大規模知識圖譜、深度隱含關聯挖掘演算法和認知圖譜等核心技術,服務地方科技產業發展,展示符合地方發展方向的本地、全國和全球人才分佈態勢、人才流動趨勢,可以為地方人才引進工作中的尋、評、引、用提供基於大資料的智慧化支援,構建全球人才 GPS,實現人才工作的按圖索驥。

以下為智譜.AI 研發人員對學術君問題的回答:

Q:在進行不同領域人才相關情報挖掘分析的時候,運用了哪些 AI 演算法?

A:使用 AMiner 庫中學者論文資訊資料, 我們主要使用了下面兩類演算法應用對學者進行領域分析標註,其中包含多個 NLP 演算法。

(1)利用 AMiner 學科知識圖譜:先對學者的發表論文中的實體,關係等資訊進行抽取(其中實體抽取方法使用 word2vec+LSTM+CRF 和規則匹配,關係抽取採用多種方式結合:包括規則和遠端監督),再利用已構建的學科知識圖譜推理對學者進行領域標註。

(2)領域標註系統:這是一個以深度學習為核心演算法的多標籤標註系統,演算法網路結構簡單說明:先用 bert 對學者多篇代表性論文進行 Emmbedding,再使用多個的區域性 Attention 層和全域性 Attention 層進行特徵的融合和提取,最後基於這些語義特徵向量進行標籤預測,即對學者進行領域的標註。

Q2:在收集近 5 年論文資料的時候,主要以什麼為基準

A:AMiner 庫的期刊會議資料覆蓋多領域,這些期刊資料具有一定影響力和代表性,並且持續更新維護;這些期刊會議透過專家和演算法的標註所屬領域,並且定期更新該期刊會議所在領域的影響力。我們在收集學者代表性論文資料時,就是利用這些具有領域代表性和高影響力的期刊會議進行論文的收集。

Q:《寧聚寧需人才地圖》運用大資料技術並透過資料視覺化的方式呈現給讀者,這種方式在推動城市未來科技發展中有什麼作用?這些技術還可以用在哪些領域?

A:人才地圖依託高質量大規模知識圖譜、深度隱含關聯挖掘演算法和認知圖譜等核心技術,服務地方科技產業發展,展示符合地方發展方向的本地、全國乃至全球人才分佈態勢、人才流動趨勢。下一步我們預計會針對長三角(護航蘇寧常等)和深圳的人工智慧、新材料、生物醫藥等領域,基於大資料的智慧化支援,建構更進一步的人才 GPS。相關技術在其他應用領域應用也用很多,例如工業系統執行監控,社交網路資訊分析等。

Q:在系統中的“科研熱點”板塊:所展示的文字資料是用什麼模型學習得到?訓練這個模型需要花費多少時間呢?是否對比了不同的模型效果?

A:“科研熱點”板塊,實質上是文字關鍵詞抽取。這裡的抽取演算法的主要思想是利用詞向量與所在文字向量的近似程度作為是否抽取的依據,並且累加每個詞的近似得分,作為視覺化突出顯示的依據。用到的主要的模型是 word2vec。然後再使用 Spherical K-means, 以及首尾 N-Gram 聯想等演算法進行領域匹配最佳化,使抽取的關鍵詞達到最優。

對於這個文字抽取模型,訓練資料量大概是1億篇左右的論文摘要。模型的訓練時間是20 小時左右。

我們的模型與常用的開源抽取關鍵詞工具(如:TextRank,Jieba,NLTK 等)比較,具有如下 3 個效果的明顯提升:
  1. 更具學術領域針對性。常用的抽詞工具的訓練資料,通常使用的是通用文字資料,使得結果集中包含大量的非學術性詞彙。測試結果,學術研究領域關鍵詞抽取準確率提升 32%。
  2. 對英文關鍵短語的抽取,效果明顯好於常用開源工具。測試結果,學術研究領域關鍵短語抽取召回率提升 45%。
  3. 演算法流程的最後,會對於抽取結果會利用學科領域知識圖譜進行一輪篩選和排序,以提高所展示的詞與領域的匹配度。

來源:

智譜.AI 智慧人才
http://talent.zhipu.ai/

相關文章