清華大學和微軟研究院聯合釋出的“開放學術圖譜(OAG)2.0版本”資料完善

AMiner學術頭條發表於2019-05-23

開放學術圖譜 (OAG)是一個大型學術知識圖譜。它連線了兩個億級學術圖譜:微軟學術 (Microsoft Academic Graph,MAG)和AMiner 。

開放學術圖譜(OAG) 2.0在今年2月釋出之後,受到各界的關注和反饋。我們在OAG 2.0的基礎上,完善了微軟學術(MAG)論文資料,更新版本新增了以下論文屬性:論文引用關係、論文研究領域(fields of study)、索引後的論文摘要、論文作者機構。

MAG論文更新版下載連結:

http://c7.gg/f7GnH

OAG訪問網址:

 https://www.aminer.org/oag2019

OAG v1

2017年8月,清華大學和微軟研究院聯合釋出的OAG v1,具體來說包含了來自MAG的166,192,182篇論文和來自AMiner的154,771,162篇論文的後設資料資訊。經過整合這些資料資訊,生成了兩個學術圖譜之間近64,639,608對連結(匹配)關係。

清華大學和微軟研究院聯合釋出的“開放學術圖譜(OAG)2.0版本”資料完善OAG v1概覽OAG v1在過去一年多的時間裡吸引了約40,000次下載。這次,OAG v2在OAG v1的基礎上增加了作者和出版地點相關的資料。

OAG v2

OAG v2包含了更多型別實體(作者,出版地點,論文)以及相應的匹配關係。OAG v2定義的問題如下圖所示。

清華大學和微軟研究院聯合釋出的“開放學術圖譜(OAG)2.0版本”資料完善大規模實體匹配的示例

上面的表格介紹了OAG目前有約7億實體數量,不同實體相互聯絡構成一個大規模異構網路。圖中間表示作者名字的歧義性。圖下面展示了不同型別實體的異構性,因此匹配不同型別的實體需要考慮其不同的特點。

OAG致力提供完全開放、免費的公開學術圖譜。截止2019年1月,OAG包括約7億實體和約20億實體之間的連結關係。OAG v2的統計資料如下面三個表所示。MAG和AMiner兩個學術圖譜都在不斷演變,OAG v2採用了MAG 2018年11月的快照和AMiner 2018年7月或2019年1月的快照。

資料型別

#匹配對/出版地點

日期

匹配關係

29,841

2018.12

AMiner出版地點

69,397

2018.07

MAG出版地點

52,678

2018.11

表1:OAG出版地點資料統計

資料型別

#匹配對/論文

日期

匹配關係

91,137,597

2018.12

AMiner論文

172,209,563

2019.01

MAG 論文

208,915,369

2018.11

表2:OAG論文資料統計

資料型別

#匹配對/作者

日期

匹配關係

1,717,680

2019.01

AMiner作者

113,171,945

2018.07

MAG作者

253,144,301

2018.11

表3:OAG作者資料統計

注:對於作者匹配,學者們只考慮了論文數不少於5的作者。將論文數量較少的作者排除後,AMiner中有6,855,193位作者,MAG中有13,173,936位作者。

挑戰與困難

構建億級開放學術圖譜是一項極具挑戰的研究工作。下面舉例說明主要的難點所在:

1. 實體異構

OAG中不同型別的實體具有異構性,它們都有各自不同的特徵。例如,出版地點的主要屬性是名稱,而論文有不同型別的屬性,如題目,作者列表,年份等。此外,不同資料來源的相同屬性也有異構性。例如論文作者可能存在不同的格式,如Quoc Le 和Le, Quoc;出版地點有全稱或縮寫等多種形式。

2. 實體歧義

同一名稱可以表示多個實體,這也給圖譜連線帶來了很大困難。比如常見姓名通常是作者匹配的難點。對於論文來說,相同的題目也可能代表不同的論文,如在KDD 2016中收集了兩篇題為“robust influence maximization”的不同論文。

3. 大規模匹配

要實現億級資料整合,如何進行高效計算是另一個重要挑戰。以已經公佈的論文資料為例,AMiner和MAG各自有約1.7億和2億篇論文,因此需要設計一個高效的匹配框架。

為此,學者們嘗試結合雜湊演算法,不同神經網路模型和注意力機制等方法,來連線兩個大規模學術圖譜上不同型別的實體(出版地點,論文和作者)。

評估

學者們評估了少部分匹配關係(大約1,000個出版地點/論文/作者匹配對),準確率如表4所示。

實體型別

出版地點

論文 (新匹配)

作者

準確率

99.26%

99.10%

97.41%

表4:實體匹配準確率

開放學術圖譜是開放學術組織(Open Academic Society)的一個重要專案。它是由微軟、清華、艾倫人工智慧研究所、亞利桑那大學、華盛頓大學、加州洛杉磯大學、澳洲國立大學等20個全球機構一起聯合成立的學術組織,旨在推廣學術資料的開放共享、加強學術交流與合作。開放學術圖譜以整合全球不同學術知識圖譜、公開共享學術圖譜資料、提供相關學術搜尋與挖掘服務為目標。

OAG可以用於多種研究課題,如:網路資料探勘(論文引用關係網路,作者合作關係網路等),文獻內容挖掘,同名作者消歧和學術圖譜對齊等。

OAG訪問網址:

 https://www.aminer.org/oag2019

參考文獻

[1] Arnab Sinha, Zhihong Shen, Yang Song, Hao Ma, Darrin Eide, Bo-June (Paul) Hsu, and Kuansan Wang. 2015. An Overview of Microsoft Academic Service (MAS) and Applications. In Proceedings of the 24th International Conference on World Wide Web (WWW ’15 Companion). ACM, New York, NY, USA, 243-246. [PDF ][System ][API ]

[2] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD’2008). pp.990-998. [PDF ] [Slides ] [System ] [API ]

相關文章