全文搜尋怎麼給查詢語句與文件相關性打分

超人汪小建發表於2017-04-01

樸素想法

使用者輸入一個查詢query，query由若干詞（term）組成，文件也由若干詞（term）組成。那麼怎麼評判查詢和文件的相關性的高低。

很樸素簡單的想法就是文件中包含的term與查詢query中包含的term，兩者越多相同的則說明越相關。比如query為"animal cat"，文件一內容為"cat dog bird animal"，文件二內容為"cat dog bird tiger"，則認為query與文件二的相關性比文件一的高。

詞權重

現在缺少詞權重，比如一個文件中cat出現次數為2，而dog次數為1，那麼cat的權重應該高一些。比如cat在10個文件出現和在1個文件出現也有不同的權重。

一般來說，可以由兩方面來影響某文件某term的權重：

該文件詞頻（term frequency）：該文件出現該term的次數，tf越大說明越重要。
文件詞頻（document frequency）：包含該term的文件數，df越大說明越不重要，說明它更大眾。

於是某個term的權重可定為：

全文搜尋怎麼給查詢語句與文件相關性打分

VSM

向量空間模型（VSM）是一個計算倆文字相似性的經典演算法。

將文件和query中term的並集看成是n維空間，每個term是一維。
將文件中term的權重看成一個n維向量，不存在的term看成權重為0。
同樣將query看成是n維空間，每個term是一維。
同樣將query的term的權重看成一個n維向量，不存在的term看成權重為0。

文件權重向量和query權重向量之間的夾角越小則認為相關性越大。於是，

全文搜尋怎麼給查詢語句與文件相關性打分

干擾項

表單符號，一般標點符號沒有價值，去掉。
停詞，停詞沒有特別的意義，一般不能成為搜尋的關鍵詞，比如"the","that","this"等。

去掉這些干擾項可以讓VSM降維，提升計算效率和準確度。

文件權重

對於某些文件可能相對重要點，有些文件沒這麼重要，這時需要額外的權重來表示。於是相關性得分，

全文搜尋怎麼給查詢語句與文件相關性打分

比如文件一的權重設為1.1，文件二的權重設為1.0，則通過這個權重係數可以向整體分數表達出來。

標準化

前面計算詞權重時存在一個問題，文件出現某term次數越多則說明它的權重越大，那麼是不是可以說一個包含了1000個term的文件出現了2次cat，就比一個包含了10個term的文件出現了1次cat權重大？於是需要引入標準化來解決這個問題，

全文搜尋怎麼給查詢語句與文件相關性打分

通過標準化後減少了文件長度的影響。

歡迎關注：

全文搜尋怎麼給查詢語句與文件相關性打分 — 這裡寫圖片描述

相關文章

什麼是SQL 語句中相關子查詢與非相關子查詢
2024-04-28
SQL
如何全文搜尋oracle官方文件
2016-03-29
Oracle
語義搜尋相關配置
2024-04-20
sql語法相關子查詢與非相關子查詢
2013-10-05
SQL
智慧推薦：“相關性搜尋”只給你最想要的
2017-10-27
SQL中查詢語句內的相關應用
2012-10-29
SQL
搜尋/查詢
2024-08-29
PostgreSQL實時高效搜尋-全文檢索、模糊查詢、正則查詢、相似查詢、ADHOC查詢
2017-12-05
SQL
SQL資料庫全域性搜尋字串(key&value)/無需執行查詢語句/不漏搜任何字串
2020-09-29
SQL資料庫字串
【搜尋引擎】Solr全文檢索近實時查詢優化
2019-06-27
Solr優化
Elasticsearch——全文搜尋
2019-02-18
Elasticsearch
大眾點評搜尋相關性技術探索與實踐
2022-07-07
ORACLE 資料庫查詢語句與DML語句
2019-10-16
Oracle資料庫
【ORACLE】常用物化檢視相關後設資料查詢語句
2018-01-03
Oracle
ElasticSearch全文搜尋引擎
2019-07-29
Elasticsearch
Laravel xunsearch 全文搜尋
2019-02-16
Laravel
oracle全文搜尋功能
2010-12-23
Oracle
陣列的查詢（搜尋）：線性查詢和二分法查詢
2020-11-25
陣列
有關Oracle分頁查詢語句
2008-05-19
Oracle
請教Hibernate中分頁查詢語句怎麼寫？
2003-08-25
ES 筆記十八：搜尋的相關性算分
2019-11-07
筆記
[20160815]查詢相關表的sql語句.txt
2016-08-15
SQL
BM42：語義搜尋與關鍵詞搜尋結合
2024-07-04
相關子查詢&非相關子查詢概念
2011-09-08
查詢阻塞與被阻塞SQL語句
2015-05-17
SQL
Hql查詢語句
2011-12-07
mysql查詢語句
2024-04-04
MySql
Elasticsearch 的配置與使用，為了全文搜尋
2018-04-19
Elasticsearch
[Mysql 查詢語句]——查詢欄位
2017-03-18
MySql
Google高階搜尋技巧之高階語法查詢指令
2018-07-15
Go
Elasticsearch查詢語句語法
2017-08-28
Elasticsearch
ubuntu 終端內查詢/搜尋
2020-04-04
Ubuntu
二分搜尋（折半查詢）
2020-12-18
Windows10搜尋框怎麼關閉_Win10如何關閉搜尋框
2020-03-21
WindowsWin10
mysql查詢語句集
2020-04-05
MySql
SQL查詢語句 (Oracle)
2020-10-31
SQLOracle
MySQL查詢阻塞語句
2015-02-05
MySql
SQL server 查詢語句
2009-02-16
SQLServer