資訊檢索與排序模型之布林模型
在布林模型之前首先讓我們瞭解一下模型的基本概念為後面的學習奠定基礎。模型是採用數學工具對現實世界某種事物或某種運動的抽象描述,面對相同的輸入,模型輸出應能夠無限地逼近現實世界的輸出(如:天氣預報模型)。 資訊檢索模型就是表示文件與使用者查詢以及查詢與文件的關係框架。下圖是常用的資訊檢索模型以及所支撐其的相關數學背景。
資訊檢索模型以及支撐的數學背景
資訊檢索模型以及支撐的數學背景
布林模型描述:
文件(用D表示)—— 一個文件被表示為關鍵字的集合;
查詢式(用Q表示)—— 用於表示使用者查詢的關鍵詞的布林組合,並用“與(And)、或(or)、非(Not)”連結起來,且用括號知名優先次序;
舉例
下面有2個文件:
文件1:a b c f g h;
文件2:a f b x y z;
使用者想找出出現a或者b但一定要出現z的文件。當然我們仔細一看,結果顯而易見是文件2符合使用者的需求。但是對於計算機布林排序模型它是怎麼實現的呢 ?
將查詢表示為布林表示式Q=(a∨b) ∧z,並轉換成析取正規化qDNF=(1, 0,1) ∨(0,1,1) ∨(1,1,1);
文件1和文件2的三元組對應值分別為(1,1,0)和(1,1,1);
經過匹配,將文件2返回;
布林模型的優點:
透過使用複雜的布林表示式,可以很方便地控制查詢結果,經過某種訓練的使用者可以容易地寫出布林查詢表示式;
相當有效的實現方法,相當於識別包含了一個某個特定term的文件式;
布林模型問題:
不支援部分匹配,而完全匹配會導致太多或者太少的,非常剛性: ―與”意味著全部; ―或”意味著任何一個;
很難控制被檢索的文件數量原則上講,所有被匹配的文件都將被返回;
很難對輸出進行排序;
如果一篇文件被使用者確認為相關或者不相怎樣,相應地修改查詢式呢。
資訊檢索模型以及支撐的數學背景
資訊檢索模型以及支撐的數學背景
布林模型描述:
文件(用D表示)—— 一個文件被表示為關鍵字的集合;
查詢式(用Q表示)—— 用於表示使用者查詢的關鍵詞的布林組合,並用“與(And)、或(or)、非(Not)”連結起來,且用括號知名優先次序;
舉例
下面有2個文件:
文件1:a b c f g h;
文件2:a f b x y z;
使用者想找出出現a或者b但一定要出現z的文件。當然我們仔細一看,結果顯而易見是文件2符合使用者的需求。但是對於計算機布林排序模型它是怎麼實現的呢 ?
將查詢表示為布林表示式Q=(a∨b) ∧z,並轉換成析取正規化qDNF=(1, 0,1) ∨(0,1,1) ∨(1,1,1);
文件1和文件2的三元組對應值分別為(1,1,0)和(1,1,1);
經過匹配,將文件2返回;
布林模型的優點:
透過使用複雜的布林表示式,可以很方便地控制查詢結果,經過某種訓練的使用者可以容易地寫出布林查詢表示式;
相當有效的實現方法,相當於識別包含了一個某個特定term的文件式;
布林模型問題:
不支援部分匹配,而完全匹配會導致太多或者太少的,非常剛性: ―與”意味著全部; ―或”意味著任何一個;
很難控制被檢索的文件數量原則上講,所有被匹配的文件都將被返回;
很難對輸出進行排序;
如果一篇文件被使用者確認為相關或者不相怎樣,相應地修改查詢式呢。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28519454/viewspace-1129651/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- GraphRAG 檢索增強+圖模型模型
- 杜布林衝突的系統分析模型(轉載)模型
- 一種基於概率檢索模型的大資料專利檢索方法與流程模型大資料
- 資訊檢索
- ACM – 5.3 排序檢索ACM排序
- OpenSearch向量檢索和大模型方案深度解讀大模型
- 谷歌DeepMind釋出Gecko:專攻檢索,與大7倍模型相抗衡谷歌模型
- C#快速入門教程(10)——布林型別與布林運算C#型別
- LLM大模型:LLaVa多模態圖片檢索原理大模型
- 資訊檢索&FAQ硬核技術!飛槳開源百度自研SimNet模型模型
- MySQL手注之盲注(布林)MySql
- 影象檢索:資訊檢索評價指標mAP指標
- 布林帶策略
- 獨立模型的列表頁,如何將布林型(0,1)對映為建立模型時填寫的屬性名稱?模型
- 孟子小樣本和檢索式預訓練模型進展模型
- 喬弗萊和利林模型(轉載)模型
- lua與c++ 中布林布bool值對應關係C++
- 如何管理資料模型與業務模型之間對映?模型
- TypeScript 布林型別TypeScript型別
- SCSS 布林 型別CSS型別
- 25 個值得關注的檢索增強生成 (RAG) 模型和框架模型框架
- 如何檢視tensorflow SavedModel格式模型的資訊模型
- 機器學習引數模型與非引數模型/生成模型與判別模型機器學習模型
- 生成模型與判別模型模型
- 【任務】資訊檢索.MOOC學習
- 面試題:布林變數面試題變數
- HTML 布林屬性值HTML
- 布林代數入門
- 啃碎併發(11):記憶體模型之重排序記憶體模型排序
- Django模型之欄位與約束Django模型
- 檢索式問答系統的語義匹配模型(神經網路篇)模型神經網路
- java記憶體模型——重排序Java記憶體模型排序
- Java記憶體模型_重排序Java記憶體模型排序
- 你好,布林瑪!(Blazor元件庫)Blazor元件
- python-布林運算Python
- 布林線指標(轉載)指標
- 【死磕Java併發】-----Java記憶體模型之重排序Java記憶體模型排序
- 第三章 Java記憶體模型之重排序④Java記憶體模型排序