資訊檢索與排序模型之布林模型

zongxiao08發表於2014-03-26
布林模型之前首先讓我們瞭解一下模型的基本概念為後面的學習奠定基礎。模型是採用數學工具對現實世界某種事物或某種運動的抽象描述,面對相同的輸入,模型輸出應能夠無限地逼近現實世界的輸出(如:天氣預報模型)。 資訊檢索模型就是表示文件與使用者查詢以及查詢與文件的關係框架。下圖是常用的資訊檢索模型以及所支撐其的相關數學背景。

資訊檢索模型以及支撐的數學背景
資訊檢索模型以及支撐的數學背景
布林模型描述:

文件(用D表示)—— 一個文件被表示為關鍵字的集合;
查詢式(用Q表示)—— 用於表示使用者查詢的關鍵詞的布林組合,並用“與(And)、或(or)、非(Not)”連結起來,且用括號知名優先次序;
舉例
下面有2個文件:

文件1:a b c f g h;
文件2:a f b x y z;
使用者想找出出現a或者b但一定要出現z的文件。當然我們仔細一看,結果顯而易見是文件2符合使用者的需求。但是對於計算機布林排序模型它是怎麼實現的呢 ?

將查詢表示為布林表示式Q=(a∨b) ∧z,並轉換成析取正規化qDNF=(1, 0,1) ∨(0,1,1) ∨(1,1,1);
文件1和文件2的三元組對應值分別為(1,1,0)和(1,1,1);
經過匹配,將文件2返回;
布林模型的優點:

透過使用複雜的布林表示式,可以很方便地控制查詢結果,經過某種訓練的使用者可以容易地寫出布林查詢表示式;
相當有效的實現方法,相當於識別包含了一個某個特定term的文件式;
布林模型問題:

不支援部分匹配,而完全匹配會導致太多或者太少的,非常剛性: ―與”意味著全部; ―或”意味著任何一個;
很難控制被檢索的文件數量原則上講,所有被匹配的文件都將被返回;
很難對輸出進行排序;
如果一篇文件被使用者確認為相關或者不相怎樣,相應地修改查詢式呢。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28519454/viewspace-1129651/,如需轉載,請註明出處,否則將追究法律責任。

相關文章