知識圖譜的知識從哪裡來

趙丹 Diana Zhao發表於2014-01-17

enter image description here

一個朋友發給我他寫的文章,討論知識圖譜的構建問題,對於知識圖譜中知識的來源,他寫的相當全面,摘錄如下:

“知識圖譜通過收集來自百科類站點和各種垂直站點的結構化資料來覆蓋大部分常識性知識。這些資料普遍質量較高,更新速度慢。另一方面,知識圖譜通過從各種半結構化資料(形如HTML表格)抽取相關實體的屬性-值對來豐富實體的描述。此外,也可以通過搜尋日誌(query log)發現新的實體或新的實體屬性從而不斷擴充套件知識圖譜的覆蓋率。相比高質量的常識性知識,通過資料探勘抽取得到的知識資料更大,更能反映當前使用者的查詢需求並能及時發現最新的實體或事實,但其質量相對較差,存在一定的錯誤。”

我來解釋一下他講的幾種方法。第一類來源,百科類網站的頁面結構是按照他們自有的百科資料schema生成的,因此針對每一個百科網站,都可以用一個頁面模版來提取其中的資料,提取就是生成的逆過程,對於有經驗的web工程師來說,製作這種提取模版毫無困難。第二類來源,所謂半結構化資料,是指在結構中包含了語義關係的資料,這一點和第一類是相同的,但是和第一類不同在於,第一類的結構明確而數量有限,因為明確,所以容易提取,因為有限,所以可以人工處理。第二類結構廣泛存在於Web上的眾多網頁之中,無法窮盡所有這些結構的模版,因此需要一種具有一定智慧的抽取演算法將其提取出來。第三類來源,搜尋日誌應該指的是使用者對知識圖譜本身的各種查詢的記錄,通過分析使用者的檢索詞和點選瀏覽行為,可以推測出使用者認可的或者偏好的相關知識物件,並且藉助使用者的行為找出這些物件之間可能存在的隱含關聯,這個來源要求積累一定數量的使用者訪問日誌,在知識圖譜的發展初期作用不明顯。第四類來源其實是兩類,資料探勘和資訊抽取。這裡的資訊抽取和之前的百科以及半結構化抽取又有所不同,這次是面對完全非結構化的資料,需要高度智慧的語言分析和抽取演算法來完成。資料探勘則是從已有的結構化資料中產生新的結構化資料的過程,其中有兩種實現方法,一種基於專家給出的知識生成挖掘規則,另一種使用機器學習的方法從人工篩選的樣本資料中學習挖掘規則,兩種方法都需要人工介入,只不過第一種需要專家,第二種普通人也能勝任。

相關文章