知識圖譜的知識從哪裡來
一個朋友發給我他寫的文章,討論知識圖譜的構建問題,對於知識圖譜中知識的來源,他寫的相當全面,摘錄如下:
“知識圖譜通過收集來自百科類站點和各種垂直站點的結構化資料來覆蓋大部分常識性知識。這些資料普遍質量較高,更新速度慢。另一方面,知識圖譜通過從各種半結構化資料(形如HTML表格)抽取相關實體的屬性-值對來豐富實體的描述。此外,也可以通過搜尋日誌(query log)發現新的實體或新的實體屬性從而不斷擴充套件知識圖譜的覆蓋率。相比高質量的常識性知識,通過資料探勘抽取得到的知識資料更大,更能反映當前使用者的查詢需求並能及時發現最新的實體或事實,但其質量相對較差,存在一定的錯誤。”
我來解釋一下他講的幾種方法。第一類來源,百科類網站的頁面結構是按照他們自有的百科資料schema生成的,因此針對每一個百科網站,都可以用一個頁面模版來提取其中的資料,提取就是生成的逆過程,對於有經驗的web工程師來說,製作這種提取模版毫無困難。第二類來源,所謂半結構化資料,是指在結構中包含了語義關係的資料,這一點和第一類是相同的,但是和第一類不同在於,第一類的結構明確而數量有限,因為明確,所以容易提取,因為有限,所以可以人工處理。第二類結構廣泛存在於Web上的眾多網頁之中,無法窮盡所有這些結構的模版,因此需要一種具有一定智慧的抽取演算法將其提取出來。第三類來源,搜尋日誌應該指的是使用者對知識圖譜本身的各種查詢的記錄,通過分析使用者的檢索詞和點選瀏覽行為,可以推測出使用者認可的或者偏好的相關知識物件,並且藉助使用者的行為找出這些物件之間可能存在的隱含關聯,這個來源要求積累一定數量的使用者訪問日誌,在知識圖譜的發展初期作用不明顯。第四類來源其實是兩類,資料探勘和資訊抽取。這裡的資訊抽取和之前的百科以及半結構化抽取又有所不同,這次是面對完全非結構化的資料,需要高度智慧的語言分析和抽取演算法來完成。資料探勘則是從已有的結構化資料中產生新的結構化資料的過程,其中有兩種實現方法,一種基於專家給出的知識生成挖掘規則,另一種使用機器學習的方法從人工篩選的樣本資料中學習挖掘規則,兩種方法都需要人工介入,只不過第一種需要專家,第二種普通人也能勝任。
相關文章
- 知識圖譜從哪裡來:實體關係抽取的現狀與未來
- 知識圖譜|知識圖譜的典型應用
- 知識圖譜01:知識圖譜的定義
- 知識圖譜之知識表示
- 知識圖譜學習記錄--知識圖譜概述
- 知識圖譜入門——知識表示與知識建模
- 機器之心轉載 | 知識圖譜從哪裡來:實體關係抽取的現狀與未來
- go 知識圖譜Go
- OI知識圖譜
- 【知識圖譜】 一個有效的知識圖譜是如何構建的?
- 知識圖譜——搜尋引擎的未來
- 知識圖譜技術的新成果—KGB知識圖譜介紹
- 知識圖譜的應用
- 知識圖譜學習
- Http/2知識圖譜HTTP
- 開源知識圖譜
- 知識圖譜應用
- KGB知識圖譜,利用科技解決傳統知識圖譜問題
- 知識圖譜丨知識圖譜賦能企業數字化轉型
- 【知識圖譜】知識圖譜實體連結無監督學習框架框架
- 知識圖譜的發展概述
- 免費知識哪裡來?Arxiv 使用指南
- NumPy基礎知識圖譜
- 01 知識圖譜概論
- 知識圖譜入門2
- 【知識圖譜】知識圖譜資料構建的“硬骨頭”,阿里工程師如何拿下?深度學習在知識圖譜構建中的應用。阿里工程師深度學習
- 知識圖譜的器與用(一):百萬級知識圖譜實時視覺化引擎視覺化
- 安全知識圖譜 | 繪製軟體供應鏈知識圖譜,強化風險分析
- 知識點,如何應用“安全知識圖譜”識別內部威脅?
- 知識圖譜和行業領域的結合產物-KGB知識圖譜介紹行業
- 構建知識圖譜-初學
- Go知識圖譜討論帖Go
- 文件知識庫規劃圖譜
- Java知識圖譜收集整理Java
- 事理圖譜,下一代知識圖譜
- KGB知識圖譜完善保險行業的知識應用體系行業
- 企業級知識圖譜的案例分享
- 【知識圖譜 趙軍 學習筆記】第二章 知識表示筆記