對於南京市近年來出臺的各項人才政策,你的感受又如何?
你有想過去南京生活嗎?
眾所周知,過去三十年,南京集聚了優質學者人才,不斷推動著南京綜合實力和核心競爭力的增長。而根據不久前,智譜·AI 在清華校友三創大賽頒獎典禮暨南京中華門創將創新成果大會上釋出的《寧聚寧需人才地圖》,過去五年,南京凝聚了江蘇省內重點領域大部分的高階人才。
其中,南京的生物醫藥領域高層次人才凝聚最多,約佔江蘇省 28%,佔全國 2%;南京的人工智慧領域高層次人才第二,約佔江蘇省 52%,約佔全國 3%;南京的積體電路領域高層次人才第三,約佔江蘇省 62%,約佔全國 4%。
從重點領域來看,南京高階科技人才在材料領域的數量最多,在人工智慧、新能源汽車和智慧電網領域較強。其中,人工智慧領域,南京市關鍵人才數量前十的機構之中,南京大學的高層次學者數量最多,為 48 位,論文總發表量和被引用數也最高。
該系統選取近 5 年期間相關領域國際頂級期刊和會議所收錄的全部論文資料,透過挖掘和分析論文資料,獲取論文學者資訊;透過命名排歧和資訊抽取等大資料分析和挖掘技術,對重點科技領域的專家學者進行學者畫像,構建領域人才智庫,然後根據學者畫像資訊進行領域人才相關情報挖掘分析。
從圖中我們可以看到人工智慧、生物醫藥、材料技術、積體電路等等多個當下熱門領域的多方面資訊。所呈現的資料點面結合,既包括南京該領域的人才動態、城市人才分佈、南京人才機構排名,也有該領域的全國人才分佈、全國發展情況以及南京與省份城市的影響力對比。
此外,科技情報大資料探勘與服務系統平臺 AMiner 還結合人工智慧學術知識圖譜,深度挖掘了目前南京各個領域學者的職業生涯資訊。感興趣的讀者可以訪問 AMiner 平臺進行檢視。
那麼,這麼詳細、視覺化的人才地圖,是怎麼做出來的呢?
學術君也和《寧聚寧需人才地圖》背後的研發團隊進行了交流。研究人員指出,該智慧人才系統依託清華大學高質量大規模知識圖譜、深度隱含關聯挖掘演算法和認知圖譜等核心技術,服務地方科技產業發展,展示符合地方發展方向的本地、全國和全球人才分佈態勢、人才流動趨勢,可以為地方人才引進工作中的尋、評、引、用提供基於大資料的智慧化支援,構建全球人才 GPS,實現人才工作的按圖索驥。
Q:在進行不同領域人才相關情報挖掘分析的時候,運用了哪些 AI 演算法?
A:使用 AMiner 庫中學者論文資訊資料, 我們主要使用了下面兩類演算法應用對學者進行領域分析標註,其中包含多個 NLP 演算法。
(1)利用 AMiner 學科知識圖譜:先對學者的發表論文中的實體,關係等資訊進行抽取(其中實體抽取方法使用 word2vec+LSTM+CRF 和規則匹配,關係抽取採用多種方式結合:包括規則和遠端監督),再利用已構建的學科知識圖譜推理對學者進行領域標註。
(2)領域標註系統:這是一個以深度學習為核心演算法的多標籤標註系統,演算法網路結構簡單說明:先用 bert 對學者多篇代表性論文進行 Emmbedding,再使用多個的區域性 Attention 層和全域性 Attention 層進行特徵的融合和提取,最後基於這些語義特徵向量進行標籤預測,即對學者進行領域的標註。
Q2:在收集近 5 年論文資料的時候,主要以什麼為基準?
A:AMiner 庫的期刊會議資料覆蓋多領域,這些期刊資料具有一定影響力和代表性,並且持續更新維護;這些期刊會議透過專家和演算法的標註所屬領域,並且定期更新該期刊會議所在領域的影響力。我們在收集學者代表性論文資料時,就是利用這些具有領域代表性和高影響力的期刊會議進行論文的收集。
A:人才地圖依託高質量大規模知識圖譜、深度隱含關聯挖掘演算法和認知圖譜等核心技術,服務地方科技產業發展,展示符合地方發展方向的本地、全國乃至全球人才分佈態勢、人才流動趨勢。下一步我們預計會針對長三角(護航蘇寧常等)和深圳的人工智慧、新材料、生物醫藥等領域,基於大資料的智慧化支援,建構更進一步的人才 GPS。相關技術在其他應用領域應用也用很多,例如工業系統執行監控,社交網路資訊分析等。
A:“科研熱點”板塊,實質上是文字關鍵詞抽取。這裡的抽取演算法的主要思想是利用詞向量與所在文字向量的近似程度作為是否抽取的依據,並且累加每個詞的近似得分,作為視覺化突出顯示的依據。用到的主要的模型是 word2vec。然後再使用 Spherical K-means, 以及首尾 N-Gram 聯想等演算法進行領域匹配最佳化,使抽取的關鍵詞達到最優。
對於這個文字抽取模型,訓練資料量大概是1億篇左右的論文摘要。模型的訓練時間是20 小時左右。
我們的模型與常用的開源抽取關鍵詞工具(如:TextRank,Jieba,NLTK 等)比較,具有如下 3 個效果的明顯提升:
更具學術領域針對性。常用的抽詞工具的訓練資料,通常使用的是通用文字資料,使得結果集中包含大量的非學術性詞彙。測試結果,學術研究領域關鍵詞抽取準確率提升 32%。 對英文關鍵短語的抽取,效果明顯好於常用開源工具。測試結果,學術研究領域關鍵短語抽取召回率提升 45%。 演算法流程的最後,會對於抽取結果會利用學科領域知識圖譜進行一輪篩選和排序,以提高所展示的詞與領域的匹配度。
來源:
智譜.AI 智慧人才
http://talent.zhipu.ai/