一、前言
今天一個同事問我,如何使用 Mysql 實現類似於 ElasticSearch 的全文檢索功能,並且對檢索關鍵詞跑分?我當時腦子裡立馬產生了疑問?為啥不直接用es呢?簡單好用還賊快。但是聽他說,資料量不多,客戶給的時間非常有限,根本沒時間去搭建es,所以還是看一下 Mysql 的全文檢索功能吧!
MySQL 從 5.7.6 版本開始,MySQL就內建了ngram全文解析器,用來支援中文、日文、韓文分詞。在 MySQL 5.7.6 版本之前,全文索引只支援英文全文索引,不支援中文全文索引,需要利用分詞器把中文段落預處理拆分成單詞,然後存入資料庫。本篇文章測試的時候,採用的 Mysql 5.7.6 ,InnoDB資料庫引擎。
二、全文解析器ngram
ngram就是一段文字裡面連續的n個字的序列。ngram全文解析器能夠對文字進行分詞,每個單詞是連續的n個字的序列。
例如,用ngram全文解析器對“你好世界”進行分詞:
n=1: '你', '好', '世', '界'
n=2: '你好', '好世', '世界'
n=3: '你好世', '好世界'
n=4: '你好世界'
MySQL 中使用全域性變數 ngram_token_size 來配置 ngram 中 n 的大小,它的取值範圍是1到10,預設值是 2。通常ngram_token_size設定為要查詢的單詞的最小字數。如果需要搜尋單字,就要把ngram_token_size設定為 1。在預設值是 2 的情況下,搜尋單字是得不到任何結果的。因為中文單詞最少是兩個漢字,推薦使用預設值 2。
我們們看一下Mysql預設的ngram_token_size大小:
show variables like 'ngram_token_size'
ngram_token_size 變數的兩種設定方式:
1、啟動mysqld命令時指定
mysqld --ngram_token_size=2
2、修改mysql配置檔案
[mysqld]
ngram_token_size=2
三、全文索引
以某文書資料為例,新建資料表 t_wenshu ,並且針對文書內容欄位建立全文索引,匯入10w條測試資料。
1、建表時建立全文索引
CREATE TABLE `t_wenshu` (
`province` varchar(255) DEFAULT NULL,
`caseclass` varchar(255) DEFAULT NULL,
`casenumber` varchar(255) DEFAULT NULL,
`caseid` varchar(255) DEFAULT NULL,
`types` varchar(255) DEFAULT NULL,
`title` varchar(255) DEFAULT NULL,
`content` longtext,
`updatetime` varchar(255) DEFAULT NULL,
FULLTEXT KEY `content` (`content`) WITH PARSER `ngram`
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
2、通過 alter table 方式
ALTER TABLE t_wenshu ADD FULLTEXT INDEX content_index (content) WITH PARSER ngram;
3、通過 create index 方式
CREATE FULLTEXT INDEX content_index ON t_wenshu (content) WITH PARSER ngram;
四、檢索模式
自然語言檢索
(IN NATURAL LANGUAGE MODE)自然語言模式是 MySQL 預設的全文檢索模式。自然語言模式不能使用操作符,不能指定關鍵詞必須出現或者必須不能出現等複雜查詢。
布林檢索
(IN BOOLEAN MODE)剔除一半匹配行以上都有的詞,例如,每行都有this這個詞的話,那用this去查時,會找不到任何結果,這在記錄條數特別多時很有用,原因是資料庫認為把所有行都找出來是沒有意義的,這時,this幾乎被當作是stopword(中斷詞);布林檢索模式可以使用操作符,可以支援指定關鍵詞必須出現或者必須不能出現或者關鍵詞的權重高還是低等複雜查詢。
● IN BOOLEAN MODE的特色:
·不剔除50%以上符合的row。
·不自動以相關性反向排序。
·可以對沒有FULLTEXT index的欄位進行搜尋,但會非常慢。
·限制最長與最短的字串。
·套用Stopwords。
● 搜尋語法規則:
+ 一定要有(不含有該關鍵詞的資料條均被忽略)。
- 不可以有(排除指定關鍵詞,含有該關鍵詞的均被忽略)。
> 提高該條匹配資料的權重值。
< 降低該條匹配資料的權重值。
~ 將其相關性由正轉負,表示擁有該字會降低相關性(但不像-將之排除),只是排在較後面權重值降低。
* 萬用字,不像其他語法放在前面,這個要接在字串後面。
" " 用雙引號將一段句子包起來表示要完全相符,不可拆字。
查詢擴充套件檢索
註釋:(WITH QUERY EXPANSION)由於查詢擴充套件可能帶來許多非相關性的查詢,謹慎使用!
五、檢索查詢
1)查詢 content 中包含“盜竊罪”的記錄,查詢語句如下
select caseid,content, MATCH ( content) AGAINST ('盜竊罪') as score from t_wenshu where MATCH ( content) AGAINST ('盜竊罪' IN NATURAL LANGUAGE MODE)
2)查詢 content 中包含“尋釁滋事”的記錄,查詢語句如下
select caseid,content, MATCH ( content) AGAINST ('尋釁滋事') as score from t_wenshu where MATCH ( content) AGAINST ('尋釁滋事' IN NATURAL LANGUAGE MODE) ;
3)單個漢字,查詢 content 中包含“我”的記錄,查詢語句如下
select caseid,content, MATCH ( content) AGAINST ('我') as score from t_wenshu where MATCH ( content) AGAINST ('我' IN NATURAL LANGUAGE MODE) ;
備註:因為設定的全域性變數 ngram_token_size 的值為 2。如果想查詢單個漢字,需要在配置檔案 my.ini 中修改 ngram_token_size = 1 ,並重啟 mysqld 服務,此處不做嘗試了。
4)查詢欄位 content 中包含 “危險駕駛”和“尋釁滋事”的語句如下:
select caseid,content, MATCH (content) AGAINST ('+危險駕駛 +尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('+危險駕駛 +尋釁滋事' IN BOOLEAN MODE);
5)查詢欄位 content 中包含 “危險駕駛”,但不包含“尋釁滋事”的語句如下:
select caseid,content, MATCH (content) AGAINST ('+危險駕駛 -尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('+危險駕駛 -尋釁滋事' IN BOOLEAN MODE);
6)查詢欄位 conent 中包含“危險駕駛”或者“尋釁滋事”的語句如下:
select caseid,content, MATCH (content) AGAINST ('危險駕駛 尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('危險駕駛 尋釁滋事' IN BOOLEAN MODE);
六、總結
1)使用 Mysql 全文索引之前,搞清楚各版本支援情況;
2)全文索引比 like + % 快 N 倍,但是可能存在精度問題;
3)如果需要全文索引的是大量資料,建議先新增資料,再建立索引;
4)對於中文,可以使用 MySQL 5.7.6 之後的版本,或者 Sphinx、Lucene 等第三方的外掛;
5)MATCH()函式使用的欄位名,必須要與建立全文索引時指定的欄位名一致,且只能是同一個表的欄位不能跨表;
over