本文是愛思唯爾技術研究負責人 Helena Deus 參加 2018 年國際語義網會議(ISWC)的見聞,總結了會議亮點,介紹了語義網的現狀、知識圖譜和深度學習的關係等主題。
上週我參加了在加利福尼亞州蒙特雷舉辦的國際語義網絡會議(ISWC),並在 Ada Lovelace 紀念日當天就愛思唯爾(Elsevier)在衡量和解決研究領域中的性別差異方面所做的工作發表演講(詳見:https://www.elsevier.com/research-intelligence/resource-library/gender-report)。會議的其他部分就像是一場回到過去的旅程……當然是以不錯的方式回去的 :-)
藉此機會我重新審視了自己從 2008 年開始的語義網研究。
(如果您對語義網已經有所瞭解想直接看機器學習部分的內容,您可以直接跳到「深度學習和知識圖譜」這一章)
語義網的願景活躍且良好,廣泛應用於行業
語義網的願景是「對計算機有意義」的資料網路(正如 Tim Berners Lee、James Hendler 和 Ora Lassila 在《科學美國人》發表的文章《The Semantic Web》所介紹的那樣)。ISWC 是共享這一願景的研究人員和工程師組成的社群;他們透過發表研究論文的形式作出貢獻,目的是讓這一願景成為現實。具體而言,語義網研究人員的方法是建立知識圖譜,這種資料結構的實體由 URL 進行唯一標識,並使用 RDF 語言透過三元組連結至其他實體。研究人員用知識圖譜推斷知識或新的三元組(利用規則語言),或將知識圖譜作為訓練集找到文字(或其他媒介)中有意義的關係(TimBL 寫過一篇相關的有趣文章:https://www.w3.org/DesignIssues/)。
儘管有人宣稱語義網已死或奄奄一息,但我卻持相反意見:語義網很有活力且廣泛應用於行業,這一事實在 ISWC 會議上也多次得到印證——多篇論文是關於工業和醫療領域的,它們很好地例證了語義網技術正用於解決企業問題。同樣重要的還有企業級知識圖譜小組(Panel: Enterprise-Scale Knowledge Graphs),強調了 Microsoft、Facebook、Ebay(用於改進產品搜尋功能)、Google(改進搜尋)以及 IBM(讓使用者建立自己的知識圖譜)在知識圖譜上的投入,這些企業都在自己的產品中應用了知識圖譜技術,為基於關鍵詞的搜尋提供更好的答案,從而改進使用者體驗。
語義網應用於行業和醫療領域的例子:
Babylon 利用知識圖譜讓每個人都能瞭解藥物和醫療健康方面的知識。他們用推斷的方法將症狀與正確的疾病資訊相匹配,並在移動 app 中的聊天機器人上使用。下圖是他們論文(https://link.springer.com/content/pdf/10.1007/978-3-030-00668-6_18.pdf)中的自動互動圖:
Franz Inc 和英特爾合作的 Montefiore Health System 用知識圖譜識別和標記有風險的患者,有助於醫生制訂合適的治療計劃。下圖是他們論文(http://ceur-ws.org/Vol-2180/paper-78.pdf)中的知識圖譜圖示:
愛思唯爾提出了一個資料網路,允許內部開發人員利用關聯資料(Linked Data)原則從不同的系統獲取醫療資料。他們的論文(http://ceur-ws.org/Vol-2180/paper-85.pdf)還討論了該過程中遇到的挑戰和獲得的經驗,包括如何將關聯資料方法整合到開發週期中。Paul Groth 的展示幻燈片如下所示:
全部幻燈片見原文。
NuMedii 利用知識圖譜為那些無法治癒的疾病尋找有效藥物,即透過為領域專家提供視覺化工具找到有意義的關係和佇列組織(cohort building)。他們的例子介紹了針對無法治癒的纖維化疾病(特發性肺纖維化,IPF)的藥物研發。NuMedii 挖掘了 PubMed 中關於纖維化疾病的 700K 摘要,透過發現適用於其他纖維化疾病的獲批藥物的相關驗證靶標(validated target),來確定 IPF 疾病的可能藥物。下面是他們論文(http://ceur-ws.org/Vol-2180/paper-81.pdf)中的圖。
FINRA 使用知識圖譜(和文字挖掘)捕獲到數百萬文件的後設資料,並利用後設資料連結而不是文字搜尋的相關性排名幫助使用者找到相互關聯的文件。知識圖譜有助於他們提高監管分析(regulatory analysis)的效能。下面是他們論文(http://ceur-ws.org/Vol-2180/paper-82.pdf)中的圖。
深度學習和知識圖譜
許多工程師在將深度學習應用於知識圖譜中看到的價值是:在建立或驗證三元組時,只使用圖中其他三元組而無需其他。經典的知識表徵技術允許知識工程師建立推理器(reasoner)可解釋的規則,以推斷新的或丟失的三元組。例如,「型別為人的實體一定有出生日期的屬性」這樣的規則會給每一個型別為人的例項建立出生日期的三元組。這些規則一般透過本體(ontology)來表達,本體允許屬性從上級到下級傳播(詳情請參閱:https://en.wikipedia.org/wiki/Knowledge_representation_and_reasoning)。確定正確的規則集是一個耗時的手動過程,但這個過程可以用機器學習來自動完成。
但找到正確的圖表徵將三元組提供給機器學習演算法仍然是一個開放的研究領域。ISWC 的「深度學習」部分提出了以下方法:
Vecsigrafo(http://www.semantic-web-journal.net/content/vecsigrafo-corpus-based-word-concept-embeddings-bridging-statisticsymbolic-representational):這種方法依賴於聯合詞-概念嵌入(joint word-concept embedding)。他們用依賴於共生矩陣的 swivel 生成嵌入。不同的地方在於,swivel 使用單詞作為矩陣的行/列,而他們使用的是從知識圖譜收集到的更高階的術語(lexical term)。作者評估了這種方法在英語-西班牙語互譯上的表現(就我所知,他們只翻譯單詞,而沒有翻譯句子)。他們最好的神經網路能夠在 78% 的情況下將正確的詞條譯文列入最接近的前 5 個譯文之內。在 90% 的情況下他們發現前 5 個建議翻譯結果的語義確實很接近。
曼海姆大學的研究人員利用基於規則(從統計規律中學習規則)和基於嵌入的方法(將知識圖譜嵌入更低維/潛在空間)比較了知識圖譜補全方法(https://link.springer.com/content/pdf/10.1007/978-3-030-00671-6_1.pdf)。他們在評估時使用了三個資料集:其中一個來自 wordnet,另外兩個來自 freebase。測試集中的每一個三元組都有兩個補全任務:給定關係和賓語,補全主語 (?, p, o);給定關係和主語,補全賓語 (s,p,?)。他們評估了 RuleN 和 AMIE 這兩種基於規則的方法,和 TransE、RESCAL 和 HolE 這幾種基於嵌入的方法。總體而言,作者發現基於規則的方法更加精確。根據這些結果,他們還建立了一個優於其他方法的整合方法。
蘇黎世大學的研究人員使用多工方法將知識圖譜和文件嵌入結合起來,以改善預測和分析任務,他們將該研究稱為 KADE(https://link.springer.com/content/pdf/10.1007/978-3-030-00671-6_2.pdf)。在 Kade 中,作者為文件和三元組建立一個共同的嵌入空間,目的是在不丟失原始嵌入特徵的情況下,實現可以對接不同模型(圖節點嵌入和文件嵌入)的嵌入策略。這項工作有著極大的潛力,它可以用從文件中提取出的更多三元組補全知識圖譜,因為它在同一個向量空間中既表示三元組也表示文件。
知識圖譜、語義科學和可重複性研究
值得一提的是有一個圍繞語義科學的研討會(SemSci)。這個主題就很有趣了,因為科學研究是產生新知識的引擎,但知識生成的輸出仍是為了人類需求而最佳化的。SemSci 研討會的願景是向知識圖譜提供此類科學知識。
研討會由 Paul Groth 發起,他透過實驗方法的自動化地提高了實驗的可重複性。在他看來,應該由機器和機械臂自動從來源收集知識以進行實驗。Paul 的研究表明實驗室中使用的很多方法都可以透過呼叫 API 實現自動化。Paul 的幻燈片地址:https://www.slideshare.net/pgroth/the-challenge-of-deeper-knowledge-graphs-for-science。Yolanda Gil 做了相關的演講,介紹了她在利用 AI 實現自動發現方面的研究(幻燈片見下圖)。Yolanda 認為 AI 可以提供系統化、正確且無偏差的科學知識生成方法,更別說是更好地報告科學實驗的結果了。在 Yolanda 展示的生態系統中,AI 可以提出假設,並尋找證明這種假設的方式——而這一切都是自動的。
其他關於這個主題的有趣討論還有:
WhyIs:由 Jim McCusker 提出,允許使用者與認知智慧體互動,該智慧體靠知識、目標和資料(奈米出版物)提供有用的答案和解釋。Jim 將他的系統描述為一個用於知識管理、互動和推斷的框架。
專案演示:https://redrugsdev.tw.rpi.edu/
論文:https://semsci.github.io/SemSci2018/papers/6/SemSci_2018_paper_6.pdf
證據提取(Evidence Extraction):Gully Burns 圍繞從已經公開的研究中提取支援分子相互作用的資料提出了一項很酷的研究工作。這項工作用到在 INTACT 資料庫中提到過的 2K 開放許可權的論文,從 PDF 檔案中提取影像(透過檢視低密度單詞區域實現)並用了「YOLO」方法進行子圖識別。根據不同等級的準確率將子圖分為子類(準確率為 97% 的是組織學影像,準確率為 40% 的是圖表)。
社會語義網與隱私
Tim Berners Lee 在今年的 ISWC 上告訴我們 Solid 已經成為「語義網去中心化」(Decentralizing the Semantic Web)研討會的一部分內容,該會議是由 Ruben Verborgh 和 Tobias Kuhn 共同組織的。這場會議的目標是建立可以利用知識圖譜為使用者創造價值的智慧網路客戶端和去中心化應用(他們接收了 7 篇論文,並將這些論文列在研討計劃中)。該會議的第二部分就有關於 Solid;Solid 背後的理念是要在網路上支援社交活動(很像 Facebook 和 LinkedIn 支援的那些活動),在允許人們與他人交流的同時還擁有自己的資料,使用包括資料形狀驗證在內的語義網原理,使他們的資料可以和其他使用者的個人資訊和帖子共存,還可以相互連結。社交 app 必須要獲得使用者資料的使用許可,這就意味著竊取和販賣使用者社交資料來盈利的掠奪性應用不會像現在這麼容易開發。現在正在建立的庫是 Solid 生態系統的一部分,它允許開發者透過 Javascript 使用 Solid(用 LDFlex 或 React)。
更多資訊請參閱:http://solid.inrupt.com/
此外,就隱私和許可這一話題,Jen Goldbeck 發表了關於提高隱私意識和隱私重要性的講話。這項演講的主旨是將「隱私」視為「給予許可」的行為。例如,facebook 需要在特定目的下使用使用者資料時,要從他們的使用者那裡獲得許可。語義網技術允許聚合使用者的大型的資料圖——當然是在獲得許可的情況下。考慮許可而不是「隱私」有助於創新,因為許可將討論的焦點更多地放在了具體行為、個人資料點以及實用主義上。
查詢與聯合
產業界使用語義網技術(用於主資料管理、推理或其他應用)面對的挑戰似乎一直都是查詢速度的問題。語義網的查詢語言是 SPARQL,而資料一般儲存在三元組儲存中。對於在關聯式資料庫和文件資料庫中可以良好執行的查詢而言,可能還有一些比 SPARQL 更好的選擇。當需要將查詢聯合到其他系統或者資料要回答的問題儲存在多個位置(商業防火牆內部或外部)時,基於 SPARQL 的系統就很合適了。該領域取得的一些進展包括:
Saleem 等人在《LargeRDFBench: A billion triples benchmark for SPARQL endpoint federation》中提出用於聯合 SPARQL 查詢的新基準,它將資料指標、查詢聯合指標(包括其他系統不支援的複雜查詢)以及效能指標考慮在內。有關指標的相關細節請參閱:https://twitter.com/hdeus/status/1050810577700835329。該作者發現一些聯合查詢系統返回的查詢結果並不完整,但它們並沒有讓使用者知道。用文中所述基準比較的聯合查詢有:FedX、Splendid、Anapsid 以及 HibisCus。
Janke 等人在《IMPACT ANALYSIS OF DATA PLACEMENT STRATEGIES ON QUERY EFFORTS IN DISTRIBUTED RDF STORES》中提出了一種在多個計算節點上分配大型 RDF 圖譜的最佳方法。令人驚訝的是,作者發現對快速的查詢處理而言,在所有計算節點上平衡查詢工作量比網路流量更重要。這項工作的細節請參閱:https://twitter.com/hdeus/status/1050818304850321411。
原文連結:https://www.linkedin.com/pulse/knowledge-graphs-machine-learning-iswc-2018-trip-report-helena-deus/?from=groupmessage&isappinstalled=0