清華人工智慧研究院成立「知識智慧研究中心」,釋出四大知識平臺

機器之心發表於2019-01-21
2019 年 1 月 21 日,清華大學人工智慧研究院知識智慧研究中心(以下簡稱知識中心)成立儀式暨知識計算開放平臺釋出會在清華大學 FIT 樓舉行。清華大學副校長、清華大學人工智慧研究院管委會主任尤政院士,清華大學人工智慧研究院院長張鈸院士出席成立儀式並共同為中心揭牌。清華大學人工智慧研究院常務副院長孫茂松教授主持成立儀式。

清華人工智慧研究院成立「知識智慧研究中心」,釋出四大知識平臺

知識中心在成立儀式上釋出了清華大學知識計算開放平臺,內容涵蓋語言知識、常識知識、世界知識和科技知識庫,包括:(1)在我國著名機器翻譯專家董振東先生畢三十年之功建立的語言和常識知識庫《知網》(HowNet)基礎上所研製的 OpenHowNet;(2)中英文跨語言百科知識圖譜 XLORE;(3)科技知識挖掘平臺 AMiner。董強先生、李涓子教授、唐傑教授、黃民烈副教授、劉知遠副教授分別介紹了知識計算開放平臺本次釋出的相關資源及應用案例。成立儀式上,還發布了基於 AMiner 的《清華大學人工智慧技術系列報告》(THUAITR)。

一、知識智慧研究中心成立

清華人工智慧研究院成立「知識智慧研究中心」,釋出四大知識平臺

 清華大學人工智慧研究院成立於 2018 年 6 月,由清華大學計算機系教授、中國科學院院士張鈸出任首任院長,清華大學交叉資訊研究院院長、圖靈獎獲得者姚期智擔任學術委員會主任。「知識中心」則是清華人工智慧研究院成立的首個研究中心。

張鈸院士在致辭中談及成立「知識中心」的三個使命,簡單來講即:一個核心、兩個融合。

張鈸院士認為人工智慧的研究大致可以分為兩個階段。第一個階段為從人工智慧研究出現到上世紀末,一般稱為」傳統人工智慧時代」,這個階段主要以知識為基礎。第二階段為從本世紀初到現在,以神經網路深度學習為基礎,這一階段的特點即人工智慧技術在社會中的大量應用。然而,目前的人工智慧方法仍然缺乏可信性和魯棒性。張鈸院士指出知識是人類智慧的重要特徵,我們現在已經進入後深度學習時代,讓計算機擁有大規模、高質量的形式化知識,是實現安全可信人工智慧的重要使命,知識表示、獲取、推理與計算將是新一代人工智慧研究面臨的核心問題。因此,知識中心將緊密圍繞人工智慧原創性基礎理論研究,探索支援魯棒可解釋人工智慧的大規模知識的表示、獲取、推理與計算的理論和方法,打造國際一流的知識智慧創新高地。

另一方面,張鈸院士指出,目前我國研究學者對知識表示、知識推理和建立知識庫的重視還不夠。在人工智慧頂級國際會議 IJCAI 上,關於深度學習的論文只佔全部論文的 1/3,其中 60% 的論文來自中國;而另外 2/ 3 的關於知識表示、知識推理等的論文中,則幾乎沒有來自中國的論文。張鈸院士認為我們的研究不能只是集中在某一個熱點上,科學研究必須多樣化,因此」知識中心」將建設知識計算服務平臺,平臺將包含語言知識、常識知識、世界知識、認知知識的大規模知識圖譜以及典型行業知識庫;同時也將舉辦開放的、國際化的與知識智慧相關的學術活動,以增進學術交流,普及知識智慧技術,促進產、學合作。

清華人工智慧研究院成立「知識智慧研究中心」,釋出四大知識平臺

知識中心將聘請清華大學李涓子教授為知識中心主任,「知網」創始人董振東為學術顧問。知識中心的學者將包括孫茂松、朱小燕、李涓子、唐傑、許斌、劉洋、黃民烈、劉知遠等知名學者。

清華人工智慧研究院成立「知識智慧研究中心」,釋出四大知識平臺

清華人工智慧研究院成立「知識智慧研究中心」,釋出四大知識平臺

二、清華大學知識計算開放平臺(THUKC)

知識智慧研究中心成立之後,由知識中心主任李涓子教授主持,釋出了 XLORE、OpenHowNet、AMiner、THUAITR 四個知識計算平臺。

清華人工智慧研究院成立「知識智慧研究中心」,釋出四大知識平臺

XLORE:中英文跨語言百科知識圖譜

網址:https://xlore.org/

XLORE 是中英文知識規模平衡的大規模跨語言百科知識圖譜。該圖譜通過融合維基百科和百度百科,並對百科知識進行結構化和跨語言連結構建而成。該圖譜以結構化形式描述客觀世界中的概念、例項、屬性及其豐富語義關係。XLORE 目前包含約 247 萬概念、44.6 萬屬性/關係、1628 萬例項和 260 萬跨語言連結。XLORE 作為世界知識圖譜,將為包括搜尋引擎、智慧問答等人工智慧應用提供有力支撐。

清華人工智慧研究院成立「知識智慧研究中心」,釋出四大知識平臺

XLORE 整合了多項創新研究成果:(1)利用基於連結因子圖模型的知識連結方法,實現對不同語言知識資源之間的實體知識關聯;(2)利用跨語言概念層次關係的驗證保證生成跨語言本體中概念關係的質量,並進一步研究了跨語言知識圖譜的概念層次剪枝和優化演算法以規範知識分類體系;(3)利用因子圖模型建立跨語言屬性間的對應關係,減少知識圖譜的冗餘;(4)聯合使用 DBpedia 分類樹、維基分類體系、百度百科詞條標籤對未分類實體進行類別標註。相關成果發表在 WWW、IJCAI、ACL、EMNLP 等人工智慧自然語言處理領域重要國際會議上。

與著名知識圖譜 DBpedia 相比,XLORE 的中文實體數量是其的 3.6 倍,中英文跨語言連結增加 39%。XLORE 還提供多樣化資料 API 服務,系統累計訪問次數過億次,訪問來自 53 個不同國家或地區;2018 年 API 響應呼叫 160 萬餘次。XLORE 專案計劃於 2019 年正式釋出跨語言實體連結服務 XLINK。

在世界知識的獲取、表示與計算方面,中心還研製釋出了很多開源工具和評測資料集,如知識表示學習工具包 OpenKE(https://github.com/thunlp/OpenKE)、神經網路關係抽取工具包 OpenNRE(https://github.com/thunlp/OpenNRE)、Few shot learning 關係抽取資料集 FewRel(https://github.com/thunlp/FewRel)等,自發布以來獲得學術界與產業界廣泛使用。

OpenHowNet:基於義原的開放語言知識庫

網址:https://hownet.thunlp.org/

HowNet 是由董振東先生、董強先生父子畢三十年之功建立的一個以漢語和英語的詞語所代表的概念為描述物件,以揭示概念與概念之間、以及概念所具有的屬性之間的關係為基本內容的語言和常識知識庫。知網 HowNet 秉承還原論思想,認為詞義概念可以用更小的語義單位來描述,這種語義單位被稱為「義原」(Sememe),是最基本的、不易於再分割的意義的最小單位。在不斷標註的過程中,HowNet 逐漸構建出了一套精細的義原體系(約 2000 個義原)。HowNet 基於該義原體系累計標註了數十萬詞彙/詞義的語義資訊,自 1999 年正式釋出以來引起了中文資訊處理領域極大的研究熱情,在詞彙相似度計算、文字分類資訊檢索等方面探索了 HowNet 的重要應用價值,建立了廣泛而深遠的學術影響力。

清華人工智慧研究院成立「知識智慧研究中心」,釋出四大知識平臺

2017 年以來,清華大學研究團隊系統探索 HowNet 知識庫深度學習時代的應用價值,並在詞彙語義表示、句子語義表示、詞典擴充套件等任務上均得到了驗證。研究發現,HowNet 通過統一的義原標註體系直接精準刻畫語義資訊,一方面能夠突破詞彙屏障,深入瞭解詞彙背後豐富語義資訊;另一方面每個義原含義明確固定,可被直接作為語義標籤融入機器學習模型,使自然語言處理深度學習模型具有更好的魯棒可解釋性。相關成果均發表在 AAAI、IJCAI、ACL、EMNLP 等人工智慧自然語言處理領域頂級國際會議上。

為了讓 HowNet 知識庫及其學術思想得到更廣泛的應用,知識中心聯合董氏父子共同開源 HowNet 知識庫核心資料,研製了知識庫的訪問與計算工具包,並將在清華大學知識計算平臺上持續地維護、更新和擴充套件。此外,董強等人建立的語知科技也以 HowNet 為核心,將其應用於各種自然語言理解任務。

AMiner:科技知識挖掘平臺

網址:https://aminer.cn/

AMiner 作為科技情報網路大資料挖掘平臺,包含超過 2 億篇學術論文和專利以及 1.36 億科研人員學術網路。該平臺於 2006 年上線,已經累計吸引全球 220 個國家和地區的 800 多萬 獨立 IP 訪問,資料下載量 230 萬次,年度訪問量超過 1000 萬,成為學術搜尋和社會網路挖掘 研究的重要資料和實驗平臺。

AMiner 專案團隊與中國工程科技知識中心、微軟學術搜尋、ACM、IEEE、DBLP、美國艾倫研究所、英國南安普頓大學等機構建立了良好的合作關係,專案成果及核心技術應用 於中國工程院、科技部、國家自然科學基金委、華為騰訊阿里巴巴等國內外 20 多家企 事業單位,為各單位的專家系統建設及產品升級提供了重要資料及技術支撐。

AMiner 旨在為研究人員社交網路提供全面的搜尋和資料探勘服務,主要關注: 

(1) 通過從分散式 Web 中提取資訊為每個研究人員建立基於語義的配置檔案;

(2) 從多個來源整合學術資料 (例如,書目資料和研究人員簡介);

(3) 準確搜尋異構網路; 

(4) 從學術社交網路中分析和發現有價值的模式。

清華人工智慧研究院成立「知識智慧研究中心」,釋出四大知識平臺

THUAITR:清華大學人工智慧技術系列報告

網址:https://reports.aminer.cn/

THUAITR 以 AMiner 全球科技情報大資料挖掘服務平臺為基礎,聘請領域專家作為顧問,結合人工智慧自動生成技術,以嚴謹、嚴肅、負責的態度製作釋出的人工智慧技術評論及人才分析。報告內容涵蓋技術趨勢、前沿預測、人才分佈、實力對比、以及洞察情報等。

2018 年共釋出 14 份技術報告(主題包括:自動駕駛 [基礎版]、機器人、區塊鏈、行為經濟學、機器翻譯、通訊與人工智慧自動駕駛自然語言處理計算機圖形學、超級計算機、3D 列印、智慧機器人、人臉識別人工智慧晶片),累計閱讀量超過 120 萬人次。本次將新發布「知識圖譜研究報告」和「資料探勘研究報告」。

相關文章