資訊檢索與排序模型之布林模型
在布林模型之前首先讓我們瞭解一下模型的基本概念為後面的學習奠定基礎。模型是採用數學工具對現實世界某種事物或某種運動的抽象描述,面對相同的輸入,模型輸出應能夠無限地逼近現實世界的輸出(如:天氣預報模型)。 資訊檢索模型就是表示文件與使用者查詢以及查詢與文件的關係框架。下圖是常用的資訊檢索模型以及所支撐其的相關數學背景。
資訊檢索模型以及支撐的數學背景
資訊檢索模型以及支撐的數學背景
布林模型描述:
文件(用D表示)—— 一個文件被表示為關鍵字的集合;
查詢式(用Q表示)—— 用於表示使用者查詢的關鍵詞的布林組合,並用“與(And)、或(or)、非(Not)”連結起來,且用括號知名優先次序;
舉例
下面有2個文件:
文件1:a b c f g h;
文件2:a f b x y z;
使用者想找出出現a或者b但一定要出現z的文件。當然我們仔細一看,結果顯而易見是文件2符合使用者的需求。但是對於計算機布林排序模型它是怎麼實現的呢 ?
將查詢表示為布林表示式Q=(a∨b) ∧z,並轉換成析取正規化qDNF=(1, 0,1) ∨(0,1,1) ∨(1,1,1);
文件1和文件2的三元組對應值分別為(1,1,0)和(1,1,1);
經過匹配,將文件2返回;
布林模型的優點:
透過使用複雜的布林表示式,可以很方便地控制查詢結果,經過某種訓練的使用者可以容易地寫出布林查詢表示式;
相當有效的實現方法,相當於識別包含了一個某個特定term的文件式;
布林模型問題:
不支援部分匹配,而完全匹配會導致太多或者太少的,非常剛性: ―與”意味著全部; ―或”意味著任何一個;
很難控制被檢索的文件數量原則上講,所有被匹配的文件都將被返回;
很難對輸出進行排序;
如果一篇文件被使用者確認為相關或者不相怎樣,相應地修改查詢式呢。
資訊檢索模型以及支撐的數學背景
資訊檢索模型以及支撐的數學背景
布林模型描述:
文件(用D表示)—— 一個文件被表示為關鍵字的集合;
查詢式(用Q表示)—— 用於表示使用者查詢的關鍵詞的布林組合,並用“與(And)、或(or)、非(Not)”連結起來,且用括號知名優先次序;
舉例
下面有2個文件:
文件1:a b c f g h;
文件2:a f b x y z;
使用者想找出出現a或者b但一定要出現z的文件。當然我們仔細一看,結果顯而易見是文件2符合使用者的需求。但是對於計算機布林排序模型它是怎麼實現的呢 ?
將查詢表示為布林表示式Q=(a∨b) ∧z,並轉換成析取正規化qDNF=(1, 0,1) ∨(0,1,1) ∨(1,1,1);
文件1和文件2的三元組對應值分別為(1,1,0)和(1,1,1);
經過匹配,將文件2返回;
布林模型的優點:
透過使用複雜的布林表示式,可以很方便地控制查詢結果,經過某種訓練的使用者可以容易地寫出布林查詢表示式;
相當有效的實現方法,相當於識別包含了一個某個特定term的文件式;
布林模型問題:
不支援部分匹配,而完全匹配會導致太多或者太少的,非常剛性: ―與”意味著全部; ―或”意味著任何一個;
很難控制被檢索的文件數量原則上講,所有被匹配的文件都將被返回;
很難對輸出進行排序;
如果一篇文件被使用者確認為相關或者不相怎樣,相應地修改查詢式呢。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28519454/viewspace-1129651/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 一種基於概率檢索模型的大資料專利檢索方法與流程模型大資料
- GraphRAG 檢索增強+圖模型模型
- 資訊檢索
- ACM – 5.3 排序檢索ACM排序
- 資訊檢索&FAQ硬核技術!飛槳開源百度自研SimNet模型模型
- 【導航】資訊檢索
- 影象檢索:資訊檢索評價指標mAP指標
- OpenSearch向量檢索和大模型方案深度解讀大模型
- 谷歌DeepMind釋出Gecko:專攻檢索,與大7倍模型相抗衡谷歌模型
- 如何檢視tensorflow SavedModel格式模型的資訊模型
- 如何管理資料模型與業務模型之間對映?模型
- LLM大模型:LLaVa多模態圖片檢索原理大模型
- C#快速入門教程(10)——布林型別與布林運算C#型別
- MySQL手注之盲注(布林)MySql
- Python_json資料檢索與定位之jsonPath類庫PythonJSON
- 孟子小樣本和檢索式預訓練模型進展模型
- 【任務】資訊檢索.MOOC學習
- 獨立模型的列表頁,如何將布林型(0,1)對映為建立模型時填寫的屬性名稱?模型
- 布林帶策略
- 25 個值得關注的檢索增強生成 (RAG) 模型和框架模型框架
- JS-11 運算子之布林運算子JS
- 資料檢索
- 離散數學(格與布林代數)
- 資料系統的基石:可靠性、可擴充套件性和可維護性+資料儲存與檢索的模型套件模型
- 啃碎併發(11):記憶體模型之重排序記憶體模型排序
- TypeScript 布林型別TypeScript型別
- VO(檢視模型) 與 DTO(資料傳輸物件)的區別模型物件
- Django模型之欄位與約束Django模型
- 【筆記】黃如花.資訊檢索.學習心得筆記
- Spring Boot學習之---Spring Boot與檢索 下(十六)Spring Boot
- 機器學習引數模型與非引數模型/生成模型與判別模型機器學習模型
- RabbitMQ 訊息佇列之佇列模型MQ佇列模型
- 北大高歌教授綜述:生物資訊與大語言模型模型
- 【死磕Java併發】-----Java記憶體模型之重排序Java記憶體模型排序
- 第三章 Java記憶體模型之重排序④Java記憶體模型排序
- java記憶體模型——重排序Java記憶體模型排序
- RAG:AI大模型聯合向量資料庫和 Llama-index,助力檢索增強生成技術AI大模型資料庫Index
- 畫布與元件元資訊資料流元件
- HTML 布林屬性值HTML