美團餐飲娛樂知識圖譜——美團大腦揭祕

美團技術團隊發表於2018-11-28

前言

“ I’m sorry. I can’t do that, Dave.” 這是經典科幻電影《2001: A Space Odyssey》裡HAL 9000機器人說的一句話,濃縮了人類對終極人工智慧的憧憬。讓機器學會說這樣簡單一句話,需要機器具備情感認知、自我認識以及對世界的認識,來輔助機器處理接收到的各種資訊,瞭解資訊背後的意思,從而生成自己的決策。而這些認知模組的基礎,都需要機器具備知識學習組織推理的能力,知識圖譜就是為實現這些目標而生。

今年5月,美團NLP中心開始構建大規模的餐飲娛樂知識圖譜——美團大腦,它將充分挖掘關聯各個場景資料,用AI技術讓機器“閱讀”使用者評論資料,理解使用者在菜品、價格、服務、環境等方面的喜好,挖掘人、店、商品、標籤之間的知識關聯,從而構建出一個“知識大腦”。美團大腦已經在公司多個業務中初步落地,例如智慧搜尋推薦、智慧金融、智慧商戶運營等。

此前,《美團大腦:知識圖譜的建模方法及其應用》一文,介紹了知識圖譜的分類及其具體應用,尤其是常識性知識圖譜及百科全書式知識圖譜分別是如何使用的。之後我們收到非常多的反饋,希望能進一步瞭解“美團大腦”的細節。為了讓大家更系統地瞭解美團大腦,NLP中心會在接下來一段時間,陸續分享一系列技術文章,包括知識圖譜相關的技術,美團大腦背後的演算法能力,千億級別圖引擎建設以及不同應用場景的業務效果等等,本文是美團大腦系列的第一篇文章。

邁向認知智慧

海量資料和大規模分散式計算力,催生了以深度學習為代表的第三次(1993-目前)人工智慧高潮。Web 2.0產生的海量資料給機器學習和深度學習技術提供了大量標註資料,而GPU和雲端計算的發展為深度學習的複雜數值計算提供了必要算力條件。深度學習技術在語音、影像領域均取得了突破性的進展,這表示學習技術成果使得機器首次在感知能力上達到甚至超越了人類的水平,人工智慧已經進入感知智慧階段。

然而,隨著深度學習被廣泛應用,其侷限性也愈發明顯。

  • 缺乏可解釋性:神經網路端到端學習的“黑箱”特性使得很多模型不具有可解釋性,導致很多需要人去參與決策,在這些應用場景中機器結果無法完全置信而需要謹慎的使用,比如醫學的疾病診斷、金融的智慧投顧等等。這些場景屬於低容錯高風險場景,必須需要顯示的證據去支援模型結果,從而輔助人去做決策。
  • 常識(Common Sense)缺失:人的日常活動需要大量的常識背景知識支援,資料驅動的機器學習和深度學習,它們學習到的是樣本空間的特徵、表徵,而大量的背景常識是隱式且模糊的,很難在樣本資料中進行體現。比如下雨要打傘,但打傘不一定都是下雨天。這些特徵資料背後的關聯邏輯隱藏在我們的文化背景中。
  • 缺乏語義理解。模型並不理解資料中的語義知識,缺乏推理和抽象能力,對於未見資料模型泛化能力差。
  • 依賴大量樣本資料:機器學習和深度學習需要大量標註樣本資料去訓練模型,而資料標註的成本很高,很多場景缺乏標註資料來進行冷啟動。

Alt text|center|550x0

圖1 資料知識驅動AI能力對比

從人工智慧整體發展來說,綜上的侷限性也是機器從感知智慧向認知智慧的遷躍的過程中必須解決的問題。認知智慧需要機器具備推理和抽象能力,需要模型能夠利用先驗知識,總結出人可理解、模型可複用的知識。機器計算能力整體上需要從資料計算轉向知識計算,知識圖譜就顯得必不可少。知識圖譜可以組織現實世界中的知識,描述客觀概念、實體、關係。這種基於符號語義的計算模型,一方面可以促成人和機器的有效溝通,另一方面可以為深度學習模型提供先驗知識,將機器學習結果轉化為可複用的符號知識累積起來。

知識究竟是什麼呢?知識就是有結構的資訊。人從資料中提取有效資訊,從資訊中提煉有用知識,資訊組織成了結構就有了知識。知識工程,作為代表人工智慧發展的主要研究領域之一,就是機器仿照人處理資訊積累知識運用知識的過程。而知識圖譜就是知識工程這一領域數十年來的代表性研究方向。在資料還是稀有資源的早期,知識圖譜的研究重點偏向語義模型和邏輯推理,知識建模多是自頂向下的設計模式,語義模型非常複雜。其中典型工作,是在1956年人工智慧學科奠基之會——達特茅斯會議上公佈的“邏輯理論家”(Logic Theorist)定理證明程式,該程式可以證明《數學原理》中的部分定理。伴隨著Web帶來前所未有的資料之後,知識圖譜技術的重心從嚴謹語義模型轉向海量事實例項構建,圖譜中知識被組織成<主,謂,賓>三元組的形式,來表徵客觀世界中的實體和實體之間的關係。比如像名人的維基百科詞條頁面中,Infobox卡片都會描述該名人的國籍資訊,其結構就是<人,國籍,國家>這樣的三元組。

Alt text|center|600x0

圖2 網際網路公司知識圖譜佈局

目前,知識圖譜已被廣泛應用在問答、搜尋、推薦等系統,已涉及金融、醫療、電商等商業領域,圖譜技術成為“兵家必爭”之地。微軟於2010年開始構建Satori知識圖譜來增強Bing搜尋;Google在2012年提出 Knowledge Graph概念,用圖譜來增強自己的搜尋引擎;2013年Facebook釋出Open Graph應用於社交網路智慧搜尋;2015年阿里巴巴開始構建自己的電商領域知識圖譜;2016年Amazon也開始構建知識圖譜。

Alt text|center

圖3 美團大腦

2018年5月,美團點評NLP中心開始構建大規模的餐飲娛樂知識圖譜——美團大腦。美團點評作為中國最大的線上本地生活服務平臺,覆蓋了餐飲娛樂領域的眾多生活場景,連線了數億使用者和數千萬商戶,積累了寶貴的業務資料,蘊含著豐富的日常生活相關知識。在建的美團大腦知識圖譜目前有數十類概念,數十億實體和數百億三元組,美團大腦的知識關聯數量預計在未來一年內將上漲到數千億的規模。

美團大腦將充分挖掘關聯各個場景資料,用AI技術讓機器“閱讀”使用者評論和行為資料,理解使用者在菜品、價格、服務、環境等方面的喜好,構建人、店、商品、場景之間的知識關聯,從而形成一個“知識大腦”。相比於深度學習的“黑盒子”,知識圖譜具有很強的可解釋性,在美團跨場景的多個業務中應用性非常強,目前已經在搜尋、金融等場景中初步驗證了知識圖譜的有效性。近年來,深度學習和知識圖譜技術都有很大的發展,並且存在一種互相融合的趨勢,在美團大腦知識構建過程中,我們也會使用深度學習技術,把資料背後的知識挖掘出來,從而賦能業務,實現智慧化的本地生活服務,幫助每個人“Eat Better, Live Better”。

知識圖譜技術鏈

Alt text

圖4 知識圖譜技術鏈

知識圖譜的源資料來自多個維度。通常來說,結構化資料處理簡單、準確率高,其自有的資料結構設計,對資料模型的構建也有一定指導意義,是初期構建圖譜的首要選擇。世界知名的高質量的大規模開放知識庫如Wikidata、DBPedia、Yago是構建通用領域多語言知識圖譜的首選,國內有OpenKG提供了諸多中文知識庫的Dump檔案或API。工業界往往基於自有的海量結構化資料,進行圖譜的設計與構建,並同時利用實體識別、關係抽取等方式處理非結構化資料,增加更多豐富的資訊。

知識圖譜通常以實體為節點形成一個大的網路,圖譜的Schema相當於資料模型,描述了領域下包含的型別(Type),與型別下描述實體的屬性(Property),Property中實體與實體之間的關係為邊(Relation),實體自帶資訊為屬性(Attribute)。除此之外Schema也會描述它們的約束關係。

美團大腦圍繞使用者打造吃喝玩樂全方面的知識圖譜,從實際業務需求出發,在現有資料表之上抽象出資料模型,以商戶、商品、使用者等為主要實體,其基本資訊作為屬性,商戶與商品、與使用者的關聯為邊,將多領域的資訊關聯起來,同時利用評論資料、網際網路資料等,結合知識獲取方法,填充圖譜資訊,從而提供更加多元化的知識。

知識獲取

知識獲取是指從不同來源、不同結構資料中,抽取相關實體、屬性、關係、事件等知識。從資料結構劃分可以分為結構化資料、半結構化資料和純文字資料。結構化資料指的關係型資料庫表示和儲存的的二維形式資料,這類資料可以直接通過Schema融合、實體對齊等技術將資料提取到知識圖譜中。半結構化資料主要指有相關標記用來分隔語義元素,但又不存在資料庫形式的強定義資料,如網頁中的表格資料、維基百科中的Infobox等等。這類資料通過爬蟲、網頁解析等技術可以將其轉換為結構化資料。現實中結構化、半結構化資料都比較有限,大量的知識往往存在於文字中,這也和人獲取知識的方式一致。對應純文字資料獲取知識,主要包括實體識別、實體分類、關係抽取、實體連結等技術。

實體作為知識圖譜的核心單位,從文字中抽取實體是知識獲取的一個關鍵技術。文字中識別實體,一般可以作為一個序列標註問題來進行解決。傳統的實體識別方法以統計模型如HMM、CRF等為主導,隨著深度學習的興起,BiLSTM+CRF[1]模型備受青睞,該模型避免了傳統CRF的特徵模版構建工作,同時雙向LSTM能更好地利用前後的語義資訊,能夠明顯提高識別效果。在美團點評-美食圖譜子領域的建設中,每個店家下的推薦菜(簡稱店菜)是圖譜中的重要實體之一,評論中使用者對店菜的評價,能很好地反映使用者偏好與店菜的實際特徵,利用知識獲取方法,從評論中提取出店菜實體、使用者對店菜的評價內容與評價情感,對補充實體資訊、分析使用者偏好、指導店家進行改善有著非常重要的意義。

Alt text|center|480x400

圖5 BiLSTM+CRF模型

實體分類則是對抽取出的實體進行歸類。當從文字中發現一個新的實體,給實體相應的Type是實體概念化的基本目標。比如用該實體的上下文特徵與其他Type下的實體特徵進行對比,將新實體歸入最相似的Type中。此外,在Schema不完善的情況下,對大量實體進行聚類,進而抽象出每個簇對應的Type,是自底向上構建圖譜的一個常用方法,在補充Type層的同時,也順便完成了實體歸類。

關係抽取,是從文字中自動抽取實體與實體之間的特定的語義關係,以補充圖譜中缺失的關係,例如,從“乾酪魚原來是乳酪做的”中抽取出<乾酪魚,食材,乳酪>。關係抽取可以通過定義規則模版來獲取,如匹配某種表達句式、利用文法語義特徵等,但規則類方法消耗大量人力,雜質較多。基於Bootstrap Learning的方法利用少量種子例項或模版抽取新的關係,再利用新的結果生成更多模版,如此迭代,KnowItAll[2]、TextRunner[3]基於這類思想;遠端監督(Distant Supervision)方法[4]把現有的三元組資訊作為種子,在文字中匹配同時含有主語和賓語的資訊,作為關係的標註資料。這兩種方法解決了人力耗費問題,但準確率還有待提高。近期的深度學習方法則基於聯合模型思想,利用神經網路的端對端模型,同時實現實體識別和關係抽取[5][6],從而避免前期實體識別的結果對關係抽取造成的誤差累積影響。

知識校驗

知識校驗貫穿整個知識圖譜的構建過程。在初期的Schema設計過程中,需要嚴格定義Type下的Property,Property關聯的是屬性資訊還是實體,以及實體所屬的Type等等。Schema若不夠規範,會導致錯誤傳達到資料層且不易糾錯。在資料層,通過源資料獲取或者通過演算法抽取的知識或多或少都包含著雜質,可以在Schema層面上,新增人工校驗方法與驗證約束規則,保證匯入資料的規範性,比如對於<店A,包含,店菜B>關係,嚴格要求主語A的Type是POI,賓語B的Type是Dish。而對於實體間關係的準確性,如上下位關係是否正確、例項的型別是否正確,例項之間的關係是否準確等,可以利用實體的資訊與圖譜中的結構化資訊計算一個關係的置信度,或看作關係對錯與否的二分類問題,比如<店A, 適合, 情侶約會>,對於“情侶約會”標籤,利用店A的資訊去計算一個權重會使得資料更有說服力。此外,如果涉及到其他來源的資料,在資料融合的同時進行交叉驗證,保留驗證通過的知識。當圖譜資料初步成型,在知識應用過程中,通過模型結果倒推出的錯誤,也有助於淨化圖譜中的雜質,比如知識推理時出現的矛盾,必然存在知識有誤的情況。

知識融合

知識融合主要解決多源異構資料整合問題,即從不同來源、不同結構但表達統一實體或概念的資料融合為一個實體或概念。融入來自多源資料的知識,必然會涉及知識融合工作,實體融合主要涉及Schema融合、實體對齊、實體連結等技術。

Schema是知識圖譜的模型,其融合等價於Type層的合併和Property的合併。在特定領域的圖譜中,Type與Property數量有限,可以通過人工進行合併。對於例項的對齊,可以看作一個尋找Top匹配的例項的排序問題,或者是否匹配的二分類問題,其特徵可以基於實體屬性資訊、Schema結構化資訊、語義資訊等來獲取。

實體對齊是多源資料融合中的重要過程。當資料來自於不同的知識庫體系,需要分辨其描述的是同一個實體,將相關資訊融合,最終生成該知識庫中唯一的實體。這通常是一個求最相似問題或判斷兩個實體是否是同一個的二分類問題,實體名稱、實體攜帶屬性以及其結構化資訊,都可以作為有用特徵。同時,通過Type或規則限制,縮小匹配的實體範圍。

一旦圖譜構建完成,如何從文字中準確匹配上圖譜中相應的實體,進而延伸出相關的背景知識,則是一個實體連結問題。實體連結[7] 主要依賴於實體Entity與所有Mention(文字文件中實體的目標文字)的一個多對多的對映關係表, 如 “小龍蝦”這個Mention在圖譜中實際對應的實體Entity可能是“麻辣小龍蝦”的菜,也可能是“十三香小龍蝦”的菜。對於從文字中識別出的Mention,利用上下文等資訊,對其候選Entity進行排序,找出最可能的Entity。實體連結可以正確地定位使用者所提實體,理解使用者真實的表達意圖,從而進一步挖掘使用者行為,瞭解使用者偏好。

Alt text|center|450x0

圖6 實體連結(Entity Linking)

美團大腦也參考並融入了多源的資料資訊,知識融合是構建圖譜的一個重要步驟。以美食領域子圖譜為例,該圖譜是由結構化資料和文字挖掘出來的知識融合而成,首要任務是將圖譜中已構建的菜品通過菜名、口味、食材等方面的相似度將菜品與文字挖掘出來的菜品知識進行關聯,其次還要對無法關聯的菜品知識聚類抽象成一個菜品實體。知識的融合很大程度上增加了菜品的數量,豐富了菜品資訊,同時為實體連結的對映關係表提供了候選對,有助於我們在搜尋過程中,支援更多維度(如口味、食材)的查詢。

知識表示

知識表示是對知識資料的一種描述和約定,目的是讓計算機可以像人一樣去理解知識,從而可以讓計算機進一步的推理、計算。大多數知識圖譜是以符號化的方法表示,其中RDF是最常用的符號語義表示模型,其一條邊對於一個三元組<主語Subject,謂語Predicate,賓語Object>,表達一個客觀事實,該方法直觀易懂,具備可解釋性,支援推理。

而隨著深度學習的發展,基於向量表示的Embedding演算法逐漸興起,其為每個實體與關係訓練一個可表徵的向量,該方法易於進行演算法學習,可表徵隱形知識並進一步發掘隱形知識。常用的Embedding模型有Word2Vec與Trans系列[8][9],將會在之後的系列文章裡進一步講解。美團大腦參考Freebase的建模思想,以< Subject,Predicate,Object>的三元組形式將海量知識儲存在分散式資料倉儲中,並以CVT(Compound Value Type)設計承載多後設資料,即抽象一個CVT的例項來攜帶多元資訊,圖為一個知識表示的例子。與此同時,美團大腦基於上億節點計算Graph Embedding的表徵,並將結果應用到搜尋領域中。

Alt text|center|400x0

圖7 美團大腦知識表示

知識推理

基於知識圖譜的推理工作,旨在依據現有的知識資訊推匯出新知識,包括實體關係、屬性等,或者識別出錯誤關係。可以分為基於符號的推理與基於統計的推理,前者一般根據經典邏輯建立新的實體關係的規則,或者判斷現有關係的矛盾之處,後者則是通過統計規律從圖譜中學到新的實體關係。

利用實體之間的關係可以推匯出一些場景,輔助進行決策判斷。美團大腦金融子圖譜利用使用者行為、使用者關係、地理位置去挖掘金融領域詐騙團伙。團伙通常會存在較多關聯及相似特性,圖譜中的關係可以幫助人工識別出多層、多維度關聯的欺詐團伙,再利用規則等方式,識別出批量具有相似行為的客戶,輔助人工優化調查,同時可以優化策略。

Alt text|center|550x0

圖8 知識推理在金融場景應用

知識賦能

知識圖譜含有豐富的語義資訊,對文字有基於語義的更為深入的理解,在推薦、搜尋、問答等領域能提供更加直接與精確的查詢結果,使得服務更加智慧化。

個性化推薦通過實體與實體之間的關係,利用使用者感興趣的實體,進一步擴充套件使用者偏好的相似的實體,提供可解釋性的推薦內容。一方面,圖譜提供了實體在多個維度的特徵資訊,另一方面,表示學習向量帶有一定的語義資訊,使得尋找推薦實體更接近目標實體或更偏向使用者喜好。

語義搜尋,是指搜尋引擎對Query的處理不再拘泥於字面本身,而是抽象出其中的實體、查詢意圖,通過知識圖譜直接提供使用者需要的答案,而不只是提供網頁排序結果,更精準的滿足使用者的需求。當前Google、百度、神馬搜尋都已經將基於知識圖譜的語義搜尋融入到搜尋引擎中,對於一些知識性內容的查詢,能智慧地直接顯示結果資訊。

美團大腦的業務應用

依託深度學習模型,美團大腦充分挖掘、關聯美團點評各個業務場景公開資料(如使用者評價、菜品、標籤等),正在構建餐飲娛樂“知識大腦”,並且已經開始在美團不同業務中進行落地,利用人工智慧技術全面提升使用者的生活體驗。

智慧搜尋:幫助使用者做決策

知識圖譜可以從多維度精準地刻畫商家,已經在美食搜尋和旅遊搜尋中應用,為使用者搜尋出更適合Ta的店。基於知識圖譜的搜尋結果,不僅具有精準性,還具有多樣性,例如:當使用者在美食類目下搜尋關鍵詞“魚”,通過圖譜可以認知到使用者的搜尋詞是“魚”這種“食材”。因此搜尋的結果不僅有“糖醋魚”、“清蒸魚”這樣的精準結果,還有“賽螃蟹”這樣以魚肉作為主食材的菜品,大大增加了搜尋結果的多樣性,提升使用者的搜尋體驗。並且對於每一個推薦的商家,能夠基於知識圖譜找到使用者最關心的因素,從而生成“千人千面”的推薦理由,例如在瀏覽到大董烤鴨店的時候,偏好“無肉不歡”的使用者A看到的推薦理由是“大董的烤鴨名不虛傳”,而偏好“環境優雅”的使用者B,看到的推薦理由就是“環境小資,有舞臺表演”,不僅讓搜尋結果更具有解釋性,同時也能吸引不同偏好的使用者進入商家。

Alt text|center|450x320

圖9 知識圖譜在點評搜尋中應用

對於場景化搜尋,知識圖譜也具有很強的優勢,以七夕節為例,通過知識圖譜中的七夕特色化標籤,如約會聖地、環境私密、菜品新穎、音樂餐廳、別墅餐廳等等,結合商家評論中的細粒度情感分析,為美團搜尋提供了更多適合情侶過七夕節的商戶資料,用於七夕場景化搜尋的結果召回與展示,極大的提升了使用者體驗和使用者點選轉化。

在NLP中心以及大眾點評搜尋智慧中心兩個團隊的緊密合作下,依賴知識圖譜技術和深度學習技術對搜尋架構進行了整體的升級。經過5個月時間,點評搜尋核心指標在高位基礎上,仍然有非常明顯的提升。

ToB商戶賦能:商業大腦指導店老闆決策

美團大腦正在應用於SaaS收銀系統專業版,通過機器智慧閱讀每個商家的每一條評論,可以充分理解每個使用者對於商家的感受,針對每個商家將大量的使用者評價進行歸納總結,從而可以發現商家在市場上的競爭優勢/劣勢、使用者對於商家的總體印象趨勢、商家的菜品的受歡迎程度變化。進一步,通過細粒度使用者評論全方位分析,可以細緻刻畫商家服務現狀,以及對商家提供前瞻性經營方向。這些智慧經營建議將通過美團SaaS收銀系統專業版定期觸達到各個商家,智慧化指導商家精準優化經營模式。

傳統給店老闆提供商業分析服務中主要聚焦於單店的現金流、客源分析。美團大腦充分挖掘了商戶及顧客之間的關聯關係,可以提供圍繞商戶到顧客,商戶到所在商圈的更多維度商業分析,在商戶營業前、營業中以及將來經營方向,均可以提供細粒度運營指導。

在商家服務能力分析上,通過圖譜中關於商家評論所挖掘的主觀、客觀標籤,例如“服務熱情”、“上菜快”、“停車免費”等等,同時結合使用者在這些標籤所在維度上的Aspect細粒度情感分析,告訴商家在哪些方面做的不錯,是目前的競爭優勢;在哪些方面做的還不夠,需要儘快改進。因而可以更準確地指導商家進行經營活動。更加智慧的是,美團大腦還可以推理出顧客對商家的認可程度,是高於還是低於其所在商圈的平均情感值,讓店老闆一目瞭然地瞭解自己的實際競爭力。

在消費使用者群體分析上,美團大腦不僅能夠告訴店老闆來消費的顧客的年齡層、性別分佈,還可以推理出顧客的消費水平,對於就餐環境的偏好,適合他們的推薦菜,讓店老闆有針對性的調整價格、更新菜品、優化就餐環境。

金融風險管理和反欺詐:從使用者行為建立徵信體系

知識圖譜的推理能力和可解釋性,在金融場景中具有天然的優勢,NLP中心和美團金融共建的金融好使用者擴散以及使用者反欺詐,就是利用知識圖譜中的社群發現、標籤傳播等方法來對使用者進行風險管理,能夠更準確的識別逾期客戶以及使用者的不良行為,從而大大提升信用風險管理能力。

在反欺詐場景中,知識圖譜已經幫助金融團隊在案件調查中發現並確認多個欺詐案件。由於團伙通常會存在較多關聯及相似特性,關係圖可以幫助識別出多層、多維度關聯的欺詐團伙,能通過使用者和使用者、使用者和裝置、裝置和裝置之間四度、五度甚至更深度的關聯關係,發現共用裝置、共用Wi-Fi來識別欺詐團伙,還可在已有的反欺詐規則上進行推理預測可疑裝置、可疑使用者來進行預警,從而成為案件調查的有力助手。

未來的挑戰

知識圖譜建設過程是美團第一次摸索基於圖的構建/挖掘/儲存/應用過程,也遇到了很多挑戰,主要的挑戰和應對思路如下:

(1)資料生成與匯入

  • 難點:Schema構建和更新;資料來源多,資料不一致問題;資料質檢。
  • 應對思路:通過針對不同的資料進行特定清洗,後設資料約束校驗、業務邏輯正確性校驗等,設定了嚴格的資料接入和更新規範。

(2)知識挖掘

  • 難點:知識的融合、表徵、推理和驗證。
  • 應對思路:通過借鑑文字中的詞向量表徵,為知識建立統一的語義空間表徵,使得語義可計算,基於深度學習和知識表示的演算法進行推理。

(3)百億圖儲存及查詢引擎

  • 難點:資料的儲存、查詢和同步,資料量極大,沒有成熟開源引擎直接使用。
  • 應對思路:構建分層增量系統,實時增量、離線增量、全量圖三層Merge查詢,減少圖更新影響範圍。同時建設完整的容災容錯、灰度、子圖回滾機制。基於LBS等業務特點合理切分子圖View,構建分散式圖查詢索引層。

(4)知識圖譜應用挑戰

  • 難點:演算法設計,系統實現難和實時應用。
  • 應對思路:知識圖譜的應用演算法則需要有效融合資料驅動和知識引導,才能提升演算法效果和提供更好的解釋性,屬於研究前沿領域。百億甚至千億關係規模下,需要設計和實現分散式的圖應用演算法,這對演算法和系統都有重大的挑戰。

總而言之,為打造越來越強大的美團大腦,NLP中心一方面利用業界前沿的演算法模型來挖掘關聯以及應用知識,另一方面,也在逐步建立國內領先的商業化分散式圖引擎系統,支撐千億級別知識圖譜的實時圖查詢、圖推理和圖計算。在未來的系列文章中,NLP中心將一一揭祕這背後的創新性技術,敬請期待。

參考文獻

[1] Huang, Zhiheng, Wei Xu, and Kai Yu. "Bidirectional LSTM-CRF models for sequence tagging." arXiv preprint arXiv:1508.01991 (2015).
[2] Etzioni, Oren, et al. "Unsupervised named-entity extraction from the web: An experimental study." Artificial intelligence165.1 (2005): 91-134.
[3] Banko, Michele, et al. "Open information extraction from the web." IJCAI. Vol. 7. 2007.
[4] Mintz, Mike, et al. "Distant supervision for relation extraction without labeled data." Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009.
[5] Zheng, Suncong, et al. "Joint entity and relation extraction based on a hybrid neural network." Neurocomputing 257 (2017): 59-66.
[6] Zheng, Suncong, et al. "Joint extraction of entities and relations based on a novel tagging scheme." arXiv preprint arXiv:1706.05075 (2017).
[7] Shen, Wei, Jianyong Wang, and Jiawei Han. "Entity linking with a knowledge base: Issues, techniques, and solutions." IEEE Transactions on Knowledge and Data Engineering 27.2 (2015): 443-460.
[8] Bordes, Antoine, et al. "Translating embeddings for modeling multi-relational data." Advances in neural information processing systems. 2013.
[9] Wang, Zhen, et al. "Knowledge Graph Embedding by Translating on Hyperplanes." AAAI. Vol. 14. 2014.

作者簡介

仲遠,博士,美團AI平臺部NLP中心負責人,點評搜尋智慧中心負責人。在國際頂級學術會議發表論文30餘篇,獲得ICDE 2015最佳論文獎,並是ACL 2016 Tutorial “Understanding Short Texts”主講人,出版學術專著3部,獲得美國專利5項。此前,博士曾擔任微軟亞洲研究院主管研究員,以及美國Facebook公司Research Scientist。曾負責微軟研究院知識圖譜、對話機器人專案和Facebook產品級NLP Service。

富崢,博士,美團AI平臺NLP中心研究員,目前主要負責美團大腦專案。在此之前,博士在微軟亞洲研究院社會計算組擔任研究員,並在相關領域的頂級會議和期刊上發表30餘篇論文,曾獲ICDM2013最佳論文大獎,出版學術專著1部。 張富崢博士曾擔任ASONAM的工業界主席,IJCAI、WSDM、SIGIR等國際會議和TKDE、TOIS、TIST等國際期刊的評審委員。

王珺,博士,美團AI平臺NLP中心產品和資料負責人。在此之前,王珺在阿里雲負責智慧顧問多產品線,推動建立了阿里雲智慧服務體系。

明洋,碩士,美團AI平臺NLP中心知識圖譜演算法工程師。2016年畢業於清華大學計算機系知識工程實驗室。

思睿,碩士,美團AI平臺NLP中心知識圖譜演算法專家。此前在百度AIG知識圖譜部負責知識圖譜、NLP相關演算法研究,參與了百度知識圖譜整個構建及落地過程。

一飛,負責AI平臺NLP中心知識圖譜產品。目前主要負責美團大腦以及知識圖譜落地專案。

夢迪,美團AI平臺NLP中心知識圖譜演算法工程師,此前在金融科技公司文因互聯任高階工程師及開放資料負責人,前清華大學知識工程實驗室研究助理,中文開放知識圖譜聯盟OpenKG聯合發起人。

相關文章