藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

阿里技術發表於2019-04-01

藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?阿里妹導讀:2018年4月阿里巴巴業務平臺事業部——知識圖譜團隊聯合清華大學、浙江大學、中科院自動化所、中科院軟體所、蘇州大學等五家機構,聯合釋出藏經閣(知識引擎)研究計劃。

藏經閣計劃依賴阿里強大的計算能力(例如Igraph圖資料庫),和先進的機器學習演算法(例如PAI平臺)。計劃釋出一年以來,阿里知識圖譜團隊有哪些技術突破?今天一起來了解。

背景

藏經閣計劃釋出一年以來,我們對知識引擎技術進行了重新定義,將其定義成五大技術模組:知識獲取、知識建模、知識推理、知識融合、知識服務,並將其開發落地。

藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

其中知識建模的任務是定義通用/特定領域知識描述的概念、事件、規則及其相互關係的知識表示方法,建立通用/特定領域知識圖譜的概念模型;知識獲取是對知識建模定義的知識要素進行例項化的獲取過程,將非結構化資料結構化為圖譜裡的知識;而知識融合是對異構和碎片化知識進行語義整合的過程,通過發現碎片化以及異構知識之間的關聯,獲得更完整的知識描述和知識之間的關聯關係,實現知識互補和融合;知識推理是根據知識圖譜提供知識計算和推理模型,發現知識圖譜中的相關知識和隱含知識的過程。知識服務則是通過構建好的知識圖譜提供以知識為核心的知識智慧服務,提升應用系統的智慧化服務能力。

藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

圖1 藏經閣-知識引擎產品

經過一年的工作,在知識建模模組我們開發了Ontology自動搭建、屬性自動發現等演算法,搭建了知識圖譜Ontology構建的工具;在知識獲取模組我們研發了新實體識別、緊湊型事件識別,關係抽取等演算法,達到了業界最高水平;在知識融合模組,我們設計了實體對齊和屬性對齊的深度學習演算法,使之可以在不同知識庫上達到更好的擴充套件性,大大豐富了知識圖譜裡的知識;在知識推理模組,我們提出了基於Character Embedding的知識圖譜表示學習模型CharTransE、可解釋的知識圖譜學習表示模型XTransE,並開發出了強大的推理引擎

基於上面的這些技術模組,我們開發了通用的知識引擎產品,目前已經在全阿里經濟體的淘寶、天貓、盒馬鮮生、飛豬、天貓精靈等幾十種產品上取得了成功應用,每天有8000多萬次線上呼叫,日均離線輸出9億條知識。目前在知識引擎產品上,已經構建成功並執行著商品、旅遊、新制造等5個垂直領域圖譜的服務。

藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

圖2 知識引擎四個層次圖示

在每個模組的構建過程中,我們陸續攻克了一系列的技術問題。本文將選取其中的兩項工作來介紹給大家:

1、在眾包資料上進行對抗學習的命名實體識別方法

知識獲取模組包含實體識別、實體連結、新實體發現、關係抽取、事件挖掘等基本任務,而實體識別(NER)又是其中最核心的任務。

目前學術界最好的命名實體識別演算法主要是基於有監督學習的。構建高效能NER系統的關鍵是獲取高質量標註語料。但是高質量標註資料通常需要專家進行標註,代價高並且速度較慢,因此目前工業界比較流行的方案是依賴眾包來標註資料,但是由於眾包人員素質參差不齊,對問題理解也千差萬別,所以用其訓練的演算法效果會受到影響。基於此問題,我們提出了針對眾包標註資料,設計對抗網路來學習眾包標註員之間的共性,消除噪音,提高中文NER的效能的方法。

這項工作的具體網路框架如圖3所示:

藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

圖3基於對抗網路的實體識別模型

標註員ID:對於各個標註員ID資訊,我們使用一個Looking-up表,表記憶體儲著每個WorkerID的向量表示。向量的初始值通過隨機數進行初始化。在模型訓練過程中,ID向量的所有數值作為模型的引數,在迭代過程中隨同其他引數一起優化。在訓練時每個標註樣例的標註員,我們直接通過查表獲取對應的ID向量表示。在測試時,由於缺乏標註員資訊,我們使用所有向量的平均值作為ID向量輸入。

對抗學習(WorkerAdversarial):眾包資料作為訓練語料,存在一定數量的標註錯誤,即“噪音”。這些標註不當或標註錯誤都是由標註員帶來的。不同標註員對於規範的理解和背景認識是不同的。對抗學習的各LSTM模組如下:

  • 私有資訊的LSTM稱為“private”,它的學習目標是擬合各位標註員的獨立分佈;而共有資訊的LSTM稱為“common”,它的輸入是句子,它的作用是學習標註結果之間的共有特徵,藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

  • 標註資訊的LSTM稱為“label”,以訓練樣例的標註結果序列為輸入,藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

再通過標註員分類器把label和common的LSTM特徵合併,輸入給CNN層進行特徵組合提取,最終對標註員進行分類。要注意的是,我們希望標註員分類器最終失去判斷能力,也就是學習到特徵對標註員沒有區分能力,也就是共性特徵。所以在訓練引數優化時,它要反向更新。

在實際的實體識別任務中,我們把common和private的LSTM特徵和標註員ID向量合併,作為實體標註部分的輸入,最後用CRF層解碼完成標註任務。

實驗結果如圖4所示,我們的演算法在商品Title和使用者搜尋Query的兩個資料集上均取得最好的效能:

藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

圖4基於對抗網路的實體識別模型實驗結果

2、基於規則與graph embedding迭代學習的知識圖譜推理演算法

知識圖譜推理計算是補充和校驗圖譜關係及屬性的必不可少的技術手段。規則和嵌入(Embedding)是兩種不同的知識圖譜推理的方式,並各有優劣,規則本身精確且人可理解,但大部分規則學習方法在大規模知識圖譜上面臨效率問題,而嵌入(Embedding)表示本身具有很強的特徵捕捉能力,也能夠應用到大規模複雜的知識圖譜上,但好的嵌入表示依賴於訓練資訊的豐富程度,所以對稀疏的實體很難學到很好的嵌入表示。我們提出了一種迭代學習規則和嵌入的思路,在這項工作中我們利用表示學習來學習規則,並利用規則對稀疏的實體進行潛在三元組的預測,並將預測的三元組新增到嵌入表示的學習過程中,然後不斷進行迭代學習。工作的整體框架如圖5所示:

藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

 圖5基於對抗網路的實體識別模型實驗結果

嵌入學習優化的目標函式是:

藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

其中:藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

lsro表示三元組的標記,藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?表示三元組的評分函式,vs表示圖譜三元組中主語(subject)的對映,Mr表示圖譜中兩個實體間關係的對映,vo表示圖譜三元組中賓語(object)的對映

基於學習到的規則(axiom),就可以進行推理執行了。通過一種迭代策略,先使用嵌入(Embedding)的方法從圖譜中學習到規則,再將規則推理執行,將新增的關係再加入到圖譜中,通過這種不斷學習迭代的演算法,能夠將圖譜中的關係預測做的越來越準。最終我們的演算法取得了非常優秀的效能:

藏經閣計劃釋出一年,阿里知識引擎有哪些技術突破?

除了上述兩項工作以外,在知識引擎技術的研發上我們還有一系列的前沿工作,取得了領先業界的效果,研究成果發表在AAAI、WWW、EMNLP、WSDM等會議上。

之後阿里巴巴知識圖譜團隊會持續推進藏經閣計劃,構建通用可遷移的知識圖譜演算法,並將知識圖譜裡的資料輸出到阿里巴巴內外部的各項應用之中,為這些應用插上AI的翅膀,成為阿里巴巴經濟體乃至全社會的基礎設施。

知識引擎研究計劃由阿里巴巴業務平臺事業部知識圖譜團隊完成,團隊在知識圖譜領域深耕多年,擁有一支強大的NLP和知識圖譜演算法和工程團隊。目前團隊也在校園招聘暑期實習生和社會招聘賢才,一起來研究前沿的圖譜技術,有意者可以把簡歷發到郵箱feiyu.xfy@alibaba-inc.com

相關文章