知識圖譜相關會議之觀後感分享與學習總結

CopperDong發表於2017-11-07
        2015年6月27日,清華大學FIT樓多功能報告廳,中國中文資訊學會青年工委系列學術活動——知識圖譜研究青年學者研討會。
        由於我畢設是與知識圖譜、實體消歧、實體對齊、知識整合相關的,所以去聽了這個報告;同時報告中採用手寫筆記,所以沒有相應的PPT和原圖(遺憾),很多圖是我自己畫的找的,可能存在遺漏或表述不清的地方,請海涵~很多演算法還在學習研究中,最後希望文章對大家有所幫助吧!感謝那些分享的牛人,知識版權歸他們所有。
        目錄:
        一.面向知識圖譜的資訊抽取技術
        二.常識知識在結構化知識庫構建中的應用
        三.淺談邏輯規則在知識圖譜表示學習中的應用
        四.大規模知識圖譜表示學習
        五.知識圖譜中推理技術及工具介紹
        六.多語言知識圖譜中的知識連結
        七.知識圖譜關鍵技術和在企業中的應用
        PPT免費下載地址:http://download.csdn.net/detail/eastmount/9159689

一.面向知識圖譜的資訊抽取技術——韓先培(中科院)

       下圖是我自己根據講述內容筆記繪製的大綱:

      

        傳統知識抽取主要是抽取是以實體、關係和事件為主的結構化資訊抽取;隨著維基百科的出現,導致了面向知識圖譜的資訊抽取,主要的變化包括:抽取目標發生了變化,從ACE文字分析抽取到KBP海量資料發現整合,同時傳統的抽取是預指定型別到現在的基於開放域、變化資料的抽取。

        韓先陪老師主要從以下四個部分分別進行了詳細的講解。
        1.高價值資訊檢測
        以知識為核心的高價值資訊包括:高價值結構和高價值文字。其中高價值結構例如Wikipedia的InfoBox(訊息盒),Web Table等。再如高價值文字:
   
姚明身高2.29m
   姚明爸爸身高2.08m,姚明比他爸高21cm
        顯然第一段文字資訊獲取價值更高,第二段文字還需要分析關係+身高相加。


        2.知識連結link
        對自然語言文字資訊與知識庫中的條目進行連結,但不同資料來源會存在冗餘資訊或歧義,詞義消歧的例子如下:

        例如“蘋果”和“賈伯斯”通過命名實體消歧確定為“蘋果(公司)”。實體連結可以利用上下文相似度、文字主題一致性實現,主要有兩類方法:
        1) 實體連結方法——統計方法
        通過知識庫和大規模語料+深度學習模型實現。
        2) 實體連結方法——圖方法 
        計算最大似然連結結果的演算法

        3.開放抽取
        傳統的抽取方法:人工標註語料+機器學習演算法,但成本高、效能低、需要預定義。
        所以提出了按需抽取、開放抽取等內容。
        1) 按需抽取
        演算法Bootstrapping,主要步驟包括:模板生成=》例項抽取=》迭代直至收斂,但會存在語義漂移線性。
        2) 開放抽取
        通過識別表達語義關係的短語來抽取實體之間的關係,工具ReVerb。如抽取“華為總部深圳”,它的優點是無需預先指定,缺點是語義歸一化。
        知識監督開放抽取,基於噪音例項去除的DS方法。Open IE(知識抽取)
        
        4.驗證整合
        知識整合需要保證其準確性和可靠性,同時知識圖譜需要增加知識、更新知識,需要確保其一致性。
        資料整合Google's Knowledge Vault,資料來源包括DOM、HTML表格、RDFa、文字等,方法最大熵模型融合資料/分類器。
        例如我在做實體對齊時就會遇到這樣的知識整合。維基百科中Infobox屬性“總部位於、總部建於、總部設定於”都是對映統一概念“總部位置”,這就需要知識整合、實體屬性對齊,常用的方法包括:聚類相似度、短語相似度等。
        總結:本文講述了從傳統IE(知識抽取)到面向知識圖譜IE,文字為核心到知識獲取為核心,封閉資訊類別到基於開放的知識抽取,更關注Retall、precision等概念和例子。


二.常識知識在結構化知識庫構建中的應用——馮巖鬆

        Common Sense Knowledge in Automatic Knowledge Base Population
        下圖是我總結的一張圖,主要包含的一些知識,因為馮老師講的是英文PPT,很多東西我也不太懂或還在學習中,所以只能講述些簡單的知識,還請見諒。

        這裡使用的三元組是<subject, predicate, object>,舉例:維基百科中已經存在了“姚明”的InfoBox半結構化資料,同時對應有詳細的介紹;現在給你“郭艾倫”一篇的詳細資訊,讓你通過類似的方法進行標註抽取屬性和值,並預測一個InfoBox資訊框。
        但同時在抽取資訊過程中會存在噪聲,例如一句話包含“安倍”和“日本”,但未必能確定他的國籍;再如“賈伯斯回蘋果了”這句話不能確定他是蘋果的CEO。
        知識不應僅是<s,p,o>,實際上知識是相互關聯的,通過關聯才能發揮它最大效應。
        eg1:
   Mao was born in China.
   Mao was born in US.

        eg2:
   Mao was born in 1991.
   Mao graduated from MIT in 1993.

        很顯然,Mao不可能即出生在中國又出生在美國;Mao也不可能只用2年的時間讀完MIT所有課程。即使是一個小學生可能都知道這個道理。
        但是你否定它是用你的常識,而不是<s,p,o>技術。Knowledge beyond <s,p,o>
        解決方法是通過A tpye of Common Sense Knowledge(CSK)常識知識實現,包括因果解釋、生活規律、知識推理等,把常識約束加入到模型之中去,通過實體Preference(偏好)、Constraint(約束)加入。
       
舉個簡單例子:
        在知識問答中“Which is the biggest city in China?”,可以通過CSK定義最高階常識如longest對映到長度length,biggest對映城市面積最大。通過定義一些常識,其效果都有相應的提升。


三.淺談邏輯規則在知識圖譜表示學習中的應用——王泉

       主要講述了邏輯規則+表示學習應用到知識圖譜中,主要內容如下:

        由於資料驅動方法和精度有限(廣泛相關!=精確匹配),需要引入邏輯規則。其中知識圖譜表示學習主要的三個步驟如上圖所示,由於涉及到很多數學、演算法方面知識,我也不是很理解。其中包括:RESCAL基於重構誤差的方法、基於排序損失的方法TransE、流水線式方法(馬爾科夫邏輯網路、0-1整數線性規劃)、聯合式方法。
        舉個例子:
        問聖安東尼奧(NBA馬刺隊)位於美國哪個州State?
        它給出的答案應該是排序序列,答案至少都是美國的州,但精確定位唯一答案比較難。其解決方法就可以加入文中講到的“邏輯規則+表示學習”實現。


四.大規模知識圖譜表示學習——劉知遠(清華大學自然語言處理)

        一個著名的公式:機器學習=資料表示+學習目標+優化方式
        現在面臨的挑戰是缺乏統一的語義表示和分析手段,而表示學習的目的就是建立統一的語義表示空間。
        知識圖譜包括實體和關係,節點表示實體,連邊表示關係,採用三元組<head,relation,tail>來實現。大規模知識獲取從文字資料抽取關係發展到了從知識圖譜抽取關係,其挑戰是高維。
        知識表示代表模型包括:Neural Tensor Network(NTN)、TransE(Translation-based Entity)
        其中研究趨勢主要包括以下幾個方面:
        1.知識表示研究趨勢:一對多關係處理
        例如:
   美國總統是奧巴馬
   美國總統是克林頓

        美國總統到底是誰?TransE假設無法較好處理一對多、多對多的關係,其趨勢是不同型別的relation怎麼表示學習?
        2.知識表示研究趨勢:文字+KG融合
        TransE+Word2Vec就是文字方法和知識圖譜方法相融合,KG對應TransE方法,文字Text對應Word2Vec模型。基於CNN的關係抽取模型,建立對詞彙、實體、關係的統一表示空間。
        3.知識表示研究確實:關係路徑表示
        知識圖譜中存在複雜的推理關係,關係路徑演算法(實體預測、關係預測)。RNN(Recurslve Neural Network)、PTransE(ADD,3-step)。

        中間對四位老師的提問:
        1.中文文字聚類
        文字自動生成摘要資訊,詞與詞之間關係、句子主幹主謂賓提取、句子壓縮、獲取任務相關的鮮豔資訊。
        2.不同語言的知識圖譜
        現趨勢文字+KG(知識圖譜)相結合,而對不同語言呢?知識不應該有語言的障礙,語言相當於只是新增了標籤label,關係是客觀存在的(唯一關係標識),如“情侶”、“戀人”只是表達不同。
        3.淘寶商品種類多、更新快,海量資料類別大,需要知識圖譜嗎?
        目前淘寶做得這麼好,沒有必要。KG適合複雜推理關係,但產品屬性可以通過知識圖譜儲存。知識圖譜是基礎構建,抽取結構化、半結構化資訊當成知識,應用於NLP、AI、問答系統、理解事件等。


五.知識圖譜中推理技術及工具介紹——漆佳林

        An Introduction of Reasoning in Knowledge Graph and Reasoning Tools
        本體規則推理,Ontology(本體)起源於哲學,表示形式化詞彙定義、抽象概念。資料異構性包括結構化資料、半結構化資料和非結構化資料的整合。
        本體語義三個標準:
        1.RDF:Resource Description Frameword
        2.RDFs:Classes例如MusicArtist音樂家
        3.OWL:Web Ontology Language,W3C標準,hierarchy分層

        包括Domain和Range
        如:“獨奏音樂家”屬於“音樂藝術家”屬於“藝術家”,具有傳遞性。
        推理解決現實問題例如:
        北京路發生追尾(BeijingRoad⊆ ョoccur Rear-end) 、王軍在北京路...可以推理王軍堵車。
        工具:
        Dbpedia知識庫是基於Wikipedia,WebPIE工具-MapReduce(平臺Platform)-OWL(語言),Marvin-PeertoPeer(平臺)-RDF(語言),SAOR\GEL-基於圖資料庫的平臺-OWLEL(語言)。
        再如推薦流行歌例子:
   小明喜歡周杰倫歌手          小明是年輕人          難
   周杰倫歌手唱流行歌    =》    小明是周杰倫粉絲       正確
   周杰倫唱《牛仔很忙》         《牛仔很忙》是流行歌    正確


六.多語言知識圖譜中的知識連結——王志春

        DBpedia知識圖譜是Wikipedia(維基百科)的DBpedia extraction framework
        維基百科一個頁面如下所示,包括:Title、Description、InfoBox、Categories(實體類別)、Crosslingual Links(跨語言連結)。



        例如“清華大學”中文、發文和英文EN的“清華大學”實體是指稱項一致的,通過實體連結實現不同語言連結。
        規範化資料集:http://mappings.dbpedia.org/
                                http://dbpedia.org/
        知識庫:
        BabelNet知識庫、WordNet、機器翻譯工具Google Translation
        Freebase and Wikidata,Freebase關閉了,變成了Wikidata知識庫。在Wikidata中傳統的Entity、Relation變成了item,不同語言標記不同,EN label、CN label、FR label標記。
        YAGO3,Wikipedia+WordNet+GeoNames,新增了地理位置資訊、時間資訊、多源版本。

        王志春老師們做了個把維基百科、百度百科、互動百科聯絡在一起的中英文的LORE。我的畢設是基於三個百科和多源網站的旅遊景點知識對齊融合技術,感觸頗深。
        總體來說,DBpedia、BabelNet、WikiData、YAGO3都來源於Wikipedia。通過Cross-lingual Knowledge Linking連結發現中英文,主要通過相似性和連結關係實現。


七.知識圖譜關鍵技術和在企業中的應用——王昊奮

        Publishing and Consuming Knowledge Graphs in Vertical Sectors
        如何從資料中發現商業價值,主要看全面資料、可訪問的、可移植(Action)三方面。知識圖譜在企業中的應用簡單包括:
        IBM的Watson通過分析病人症狀,來實現自動診斷、分析病情、推薦藥物
        自動診斷Automatic ICD Coding,通過EMR(電子病歷)建立相應的SG(圖譜)
        在生物醫藥方面應用Open Phacts
        Agriculture農業方面,各種形態的異構資料,生物論文Pubmed
        Amdocs電信方面CRM(客戶關係管理),如一位信用好的老客戶該月的電話費比平時增加了30塊,發現是自己的女兒下載了一個遊戲業務,當該客戶打電話過去,電信公司就已經取消了該遊戲業務,這是怎麼實現的呢?它就涉及到了相關的技術。
        2012年倫敦奧運會新聞資訊,很多都是自動生成的
        Enterprise Knowledge Graph

        由於會議要開到5點半,還有兩個主題:
        Natural Language Question Answering Over Knowledge Graph: A Data-driven Approach
        知識庫問答的問題與挑戰

        但我北郵有個同學要畢業了,我就提前離開了參加聚餐去了。最後希望文章對你有所幫助吧!因為不同主講人講述的內容不同,它們之間存在著一定聯絡,但又不是很密切,同時自己的深度和理解還不夠,所以文章比較渙散,但作為總結分享出來,你也可以簡單學習。後面如果我寫畢業論文相關的部落格,文章相關度和層次就一目瞭然了。
        (By:Eastmount 2015-6-29 半夜4點半   http://blog.csdn.net/eastmount/


相關文章