論文解讀 | 基於神經網路的知識推理

Paper_weekly發表於2018-03-08

原文網址 : https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/79493109

640?wxfrom=5&wx_lazy=1

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。

在這個欄目裡，你會快速 get 每篇精選論文的亮點和痛點，時刻緊跟 AI 前沿成果。

點選本文底部的「閱讀原文」即刻加入社群，檢視更多最新論文推薦。

這是 PaperDaily 的第 49 篇文章

本期推薦的論文筆記來自 PaperWeekly 社群使用者 @britin。本文對基於 RNN 的從大規模知識庫中進行推理進行了精度和可操作性的改善，提出的模型使用單個 RNN 就可以在多種 relation types 之間進行推理。

如果你對本文工作感興趣，點選底部的閱讀原文即可檢視原論文。

關於作者：Britin，中科院物理學碩士，研究方向為自然語言處理和計算機視覺。

■ 論文 | Chains of Reasoning over Entities, Relations, and Text using Recurrent Neural Networks

■ 連結 | https://www.paperweekly.site/papers/1521

■ 原始碼 | https://rajarshd.github.io/ChainsofReasoning

論文動機

使用神經網路進行更為複雜的推理以增加 KB 中的條目正在引起廣泛關注，這麼做的一個重要原因是為了同時支援 look-up 型別的問答系統以及從 entity 和 relation 中間接推理到答案的問答系統。

KB 通常是非常不完整的，推理可以完善那些缺失的資訊。見下圖：

640

已有的方法大多是基於 symbolic 和 logical 的推理系統，比如 Universal Schema，它學習 relation type 的向量表示，包括結構化 KB 中的以及自然語言文字中的關係表示，其中的 matrix completion 機制可以進行簡單的推理，但只能對單條 evidence 進行操作，比如從 microsoft-located-in-seattle 推理出 microsoft-HQ-in-seattle。

更高階的推理是從從句中得到包含三個或更多實體的 multi-hop 的知識庫圖路徑。比如可以從 Melinda–spouse–Bill–chairman–Microsoft–HQ-in–Seattle 得到 Melinda–lives-in–Seattle。

這種推理通常用 path ranking algorithm 進行。RNN 沿著任意長度的路徑組成了每條邊關係的 embeddings，輸出一個表示路徑兩端實體之間關係的向量表示。但是這些方法只能用於小型或人造資料庫上，並且對於許多情況下來說還是不準確不實際。

本文提出的方法則可以對大型的多語義 KB 進行推理，本文對基於 RNN 的從大規模 KB 中進行推理進行了精度和可操作性的改善：

之前的工作只推理了 relation，沒有推理組成路徑上節點的 entities，本文對關係型別，實體和實體型別進行了聯合學習和推理。
本文使用了 neural attention 機制對多條路徑進行推理。
之前的方法最大的問題是要為每一個需要預測的 relation-type 單獨訓練模型。而本文只訓練一個 RNN 來預測所有的 relation type。另外，由於訓練的 multi-task 特性，共享了 RNN 引數，精度也顯著提高了。

模型介紹

本文首先介紹了基本的 Path-RNN 的架構，本文的一切改進都是基於該模型的。

Path-RNN 的輸入是兩個實體之間的路徑，輸出推理出的二者之間的新關係。通過將關係之間的連線用 RNN 表示來進行推理。路徑的表示是在處理完路徑中所有的關係之後由 RNN 的最後的隱狀態給出的。

640

架構如圖所示，對每一條可能的路徑用一個 RNN 來表示，將改路徑每一個節點上的 entity 和連線的 relation 進行向量化後輸入一個 RNN 單元，整條路徑的最終向量表示就是 RNN 最後一個單元輸出的 Hidden state，將改路徑的向量表示和要預測的關係的向量表示求相似度，相似度最高的就是目標路徑。

這個模型的缺點是每一個 relation type 都要訓練一個新的模型，變數無法共享，數量巨大。另外只選擇相似度最高的那一個路徑可能會忽略掉其他路徑所隱含的資訊，還造成了計算浪費。

本文對這個模型做出的改進有：

本文共享了 relation type 的表示以及 RNN 的 composition matrices，這樣同樣的訓練資料變數就大大減少了。訓練模型的損失函式用的是 negative log-likelihood。
分別用 Top-k，average 和 LogSumExp 方法為每一條路徑的相似度評分加上權重，這樣就考慮了每一條路徑包含的資訊，而不僅僅是評分最高的那條。