第二章 XML資訊檢索基礎

JennyReborn發表於2017-02-19

2.1 資訊檢索系統

資料檢索系統可分為四個部分:
1、資料預處理:
從多種格式的資料中提取正文和其他所需的資訊。
2、索引生成:
索引是索引項的集合,一個索引項是由一個節點的關鍵碼和該節點的儲存位置組成的關聯。
目前主流的方法是以詞為單位構造倒排索引表。
3、查詢處理
使用者輸入的查詢條件可以有多種形式,很多系統採用查詢擴充套件克服這一問題,很多人還採用相關反饋、關聯矩陣等方法對查詢條件進行深入挖掘。
4、檢索
對結果進行重排序,一般的資訊檢索系統採用基於內容的計算技術來分析結果和查詢的相關性。

2.2 資訊檢索模型

資訊檢索模型是指如何對查詢和文件進行表示,然後對它們進行相似度計算的框架和方法。

2.2.1 布林模型

一個文件被表示為關鍵詞的集合,查詢式(Queries)被表示為關鍵詞的布林組合,用“與或非”連線起來,並用括號指示優先次序。

2.2.2 向量空間模型

1、查詢和文件都被看成是由若干特徵片語成的向量,每一個文件都被看成向量空間中的一個點,也就是有若干特徵詞描述的向量。文件與查詢的相似性問題被描述成向量空間中的兩個向量之間的相似度。按相似度大小將文件排序後提交給使用者。相似度值的大小反映了文件與使用者查詢要求的相關程度。
2、術語:
1)文件d(Document):泛指各種及其可讀的記錄。
2)特徵項t(Term):也稱為索引項,是指出現在文件d中而且能夠代表該文件內容的基本語言單位。
3)特徵項權重Wik

W_{ik}
(Term Weight):對應t在文獻中的重要程度,

WiktfikidfkWik=tfikidfk=tfik[log2(N/nk)+1]
W_{ik}的計算通常採用特徵項頻率tf_{ik}和逆文件頻率idf_k計算: \\W_{ik}=tf_{ik}*idf_k=tf_{ik}*[\log_2(N/n_k)+1]

4)向量空間模型(VSM):t互不相同,可以將文件看做是m維歐氏空間的向量。
5)查詢(Query):是使用者資訊需求的描述形式。
6)相似度(Similarity):衡量一篇文件向量d與使用者查詢式向量q的相近程度,即判斷某篇文件是否是使用者所需要的。

2.2.3 概率模型

1、檢索模型是基於一個檔案與提問式的相關度是高於還是低於非相關度的概率來進行文件檢索的檢索方法。
2、概率模型的優點是,文件可以按照他們相關概率遞減的順序來計算秩(rank),其缺點為:1)開始時需要猜想吧文件分為相關和不想關的兩個集合,一般來說很難;2)世紀這種模型沒有考慮索引術語在文件中的頻率(因為所有的權重都是二元的),而索引術語都是相互獨立的;3)概率模型是否要比向量模型好還存在著爭論,但現在向量模型的使用比較廣泛。

2.3 資訊檢索評價

1、資訊評價是對資訊檢索系統效能進行評估的活動。
2、資訊檢索系統的目標是在較少消耗情況下儘快、全面返回準確的結果。
3、早期常用的測評指標包括準確率(Precision)、召回率(Recall)、F1值等。其定義如下:

==F=1a1P+(1a)1R=PRaR+(1a)P
召回率=\frac {系統檢索到的相關檔案數}{相關檔案總數} \\準確率=\frac {系統檢索到的相關檔案數}{系統返回的檔案總數} \\F=\frac 1{a\frac 1P+(1-a)\frac 1R}=\frac{PR}{aR+(1-a)P}

2.4 XML資訊檢索

XML資訊檢索是指對多個XML文件進行查詢以活得理想結果。目前XML資訊檢索的研究主要包括XML索引結構、XML檢索與排序方法,以及XML檢索評價方法等。基於XML的資訊檢索系統有兩種資訊檢索單位:一種是以文件為檢索單位,另一種是以文件中被標註元素為檢索單位。

2.4.1 XML索引結構

一般認為XML文件的結構資訊包含兩方面:一是XML樹中的祖先-後代關係(含父-子關係);二是兄弟之間的關係。

2.4.1.1 支援文件檢索的索引結構

該方法只適合與以文件為檢索單位的XML搜尋引擎。

2.4.1.2

1、基於路徑記錄和結構索引思想,本體索引包括所有元素名稱,用來提高檢索效率。
2、基於樹節點編碼思想的索引結構通過對XML文件樹節點採用不同編碼方案來快速判斷兩個節點是夠存在前後代關係。

2.4.1.3 節點編碼方案、

1、祖先後代編碼(先序,後序),不足之處是不能判定是父子關係,當文件結構變化時,節點的標識要重新計算,所需花銷較大。
2、間隔編碼,(pre,size),資料庫更新特別是插入時,間隔編碼只需要較少的重新計算量,節點間隔的大小僅在插入節點的祖先節點改變。
3、虛擬節點編碼,虛節點碼採用廣度優先的編碼方式,虛節點編碼模式支援一定程度的插入增量更新。
4、兄弟編碼,具有同一個路徑標識的父節點的子節點由兄弟數來區分。更靈活,支援增量更新。

2.4.2 XML檢索方法

2.4.2.1 基於改進的向量空間檢索方法

1、利用XML文件的結構和語義資訊,考慮檢索單元的結構語義,從而提高查詢效率
2、將XML及路徑語言與傳統的向量空間模型想結合,基於簡單XPath路徑的向量檢索演算法來時間線對XML文件的檢索。
3、此外,在改進的向量空間模型中,特徵詞的權重計算方法大都是對tf*idf的修改,即tf和idf的計算均以XML元素為單位計算的。

2.4.2.2 基於域加權詞頻法的概率檢索

對於XML文件來說,不同的結構往往蘊涵了不同的語義資訊,即使是XML文件級的檢索,也與普通文字資訊檢索有所不同。XML文件通常包含一些子元素,考慮文件的內部結構對提高檢索效能是有幫助的。

2.4.2.3 基於XML查詢語言的方法

這些查詢語言實現的是精確查詢,不支援檢索結果排序、傳統的關鍵詞查詢以及異構資料來源的查詢,並不適合於在Web這樣的開放式環境下或實在大型企業的intranets環境下檢索資訊。為此,一些研究致力於對XML查詢語言進行擴充套件,使其適用於上述環境下的XML檢索。

2.4.3 返回結果的確定

XML檢索系統是以XML元素為粒度來返回檢索結果的,只返回使用者感興趣且符合檢索條件的元素集,XML檢索不但可以使得檢索結果更為準確,也使得傳輸的資料量大大減小。節點的權重與節點文字大小成一定的反比關係。

2.4.4 XML資訊檢索研究存在的問題

1)不支援檢索結果排序、傳統的關鍵詞查詢以及異構資料來源的查詢。
2)沒有從根本上考慮XML文件結構資訊
3)在輸入查詢資訊時需要按照查詢語言的語法輸入XML文件結構資訊和關鍵詞
4)不同的標籤可能表示相似的概念

相關文章