2017 年國際知識圖譜構建大賽(Knowledge Base Population,簡稱 KBP)結果近日揭曉,機器之心獲悉騰訊 AI Lab 獲得實體發現與連結(Entity Discovery and Linking Track,EDL)任務冠軍。
實體發現與連結任務三語總分前十位排名表(各隊伍為匿名)
KBP 大賽由美國國家標準與技術研究院(NIST)主辦,始辦於 2009 年,是國際上影響力最大、水平最高的知識圖譜領域賽事。KBP(Knowledge base population)任務的主要目標是知識庫擴充套件和填充,研究的主要內容是傳統的結構化知識庫如 Freebase,目前它的構建絕大多數都要依靠人的編輯工作。知識庫中描述的資訊是物理世界的命名實體和實體之間關係的抽取,如「克林頓和希拉蕊之間是夫妻關係」、「克林頓畢業於耶魯法學院」這樣一個個實體的關係。KBP 公開任務的研究目標,是讓機器可以自動從自然書寫的非結構化文字中抽取實體,以及實體之間的關係。
EDL(Entity Discovery and Linking)命名實體的發現和連線任務是從自然語言的文字中抽取命名實體,標註它們的型別及實體與已有知識庫之間的對應關係。從 2015 年開始,EDL(Entity Discovery and Linking)命名實體的發現和連線任務採用了中文、英文、西班牙文三個語種,需要找到三個語種的文字語料中的實體,並連線在一起。中文的「克林頓」要與英文的「Clinton」、西班牙文的「Clinton」連線到 Freebase 的同一個實體上。2016 年,科大訊飛包攬了當屆 KBP EDL 大賽的冠亞軍。
2017 年,EDL 任務共 24 支隊伍參加,包括 IBM、美國卡耐基梅隆大學和美國伊利諾伊大學香檳分校等國際一流科研機構,及阿里巴巴、北京郵電大學和浙江大學等國內知名企業及院校。
本次比賽,騰訊獲得三語實體發現與連結總分第一名,單語上的指標分別是中文和西班牙文兩項第一、英文第二。據瞭解,騰訊 AI Lab 在目前業界領先的 EDL 架構中引入了篇章理解模型和關聯圖模型。篇章理解模型採用深度學習架構,通過大規模資料的訓練能夠更精準的理解篇章的語義;關聯圖模型是將整篇文章的所有重要資訊一起建模到一個圖結構當中,整體求解以達到全域性最優。
TAI 是騰訊 AI 平臺部
此外,機器之心還了解到騰訊 AI Lab 建設了一個名叫 TopBase 的知識圖譜,目前涵蓋 50 多個領域如人物、音樂、影視、體育、詩詞等,億級實體,10 億級三元組,並已廣泛應用到天天快報、微信看一看及搜尋業務、騰訊雲小微等業務。
TopBase 知識示意圖