如何快速實現高併發短文檢索

葡萄酒不吐葡萄皮發表於2019-02-16

原文網址 : https://flycode.co/archives/77089

一、需求緣起
某併發量很大，資料量適中的業務線需要實現一個“標題檢索”的功能：
（1）併發量較大，每秒20w次
（2）資料量適中，大概200w資料
（3）是否需要分詞：是
（4）資料是否實時更新：否

二、常見潛在解決方案及優劣
（1）資料庫搜尋法
具體方法：將標題資料存放在資料庫中，使用like來檢索
優點：方案簡單
缺點：不能實現分詞，併發量扛不住

（2）資料庫全文檢索法
具體方法：將標題資料存放在資料庫中，建立全文索引來檢索
優點：方案簡單
缺點：併發量扛不住

（3）使用開源方案將索引外接
具體方法：搭建lucene，solr，ES等開源外接索引方案
優點：效能比上面兩種好
缺點：併發量可能有風險，系統比較重，為一個簡單的業務搭建一套這樣的系統成本較高

三、58龍哥的建議
問1：龍哥，58同城第一屆程式設計大賽的題目好像是“黃反詞過濾”，你是冠軍，當時是用DAT來實現的麼？
龍哥：是的
畫外音：什麼是DAT？
普及：DAT是double array trie的縮寫，是trie樹的一個變體優化資料結構，它在保證trie樹檢索效率的前提下，能大大減少記憶體的使用，經常用來解決檢索，資訊過濾等問題。（具體大夥百度一下“DAT”）

問2：上面的業務場景可以使用DAT來實現麼？
龍哥：DAT更新資料比較麻煩，不能增量

問3：那直接使用trie樹可以麼？
龍哥：trie樹比較佔記憶體
畫外音：什麼是trie樹？
普及：trie樹，又稱單詞查詢樹，是一種樹形結構，是一種雜湊樹的變種。典型應用是用於統計，儲存大量的字串（但不僅限於字串），所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是：利用字串的公共字首來減少查詢時間，最大限度地減少無謂的字串比較，查詢效率比雜湊樹高。（來源：百度百科）

例如：上面的trie樹就能夠表示｛and, as, at, cn, com｝這樣5個標題的集合。

問4：如果要支援分詞，多個分詞遍歷trie樹，還需要合併對吧？
龍哥：沒錯，每個分詞遍歷一次trie樹，可以得到doc_id的list，多個分詞得到的list合併，就是最終的結果。

問5：龍哥，還有什麼更好，更輕量級的方案麼？
龍哥：用trie樹，資料會膨脹文件數*標題長度這麼多，標題越長，文件數越多，記憶體佔用越大。有個一個方案，記憶體量很小，和標題長度無關，非常帥氣。

問6：有相關文章麼，推薦一篇？
龍哥：可能網上沒有，我簡單說一下吧，核心思想就是“記憶體hash ＋ ID list”
索引初始化步驟為：對所有標題進行分詞，以詞的hash為key，doc_id的集合為value
查詢的步驟為：對查詢詞進行分詞，對分詞進行hash，直接查詢hash表格，獲取doc_id的list，然後多個詞進行合併
=====例子=====
例如：
doc1 : 我愛北京
doc2 : 我愛到家
doc3 : 到家美好
先標題進行分詞：
doc1 : 我愛北京 -> 我，愛，北京
doc2 : 我愛到家 -> 我，愛，到家
doc3 : 到家美好 -> 到家，美好
對分詞進行hash，建立hash + ID list：
hash(我) -> {doc1, doc2}
hash(愛) -> {doc1, doc2}
hash(北京) -> {doc1}
hash(到家) -> {doc2, doc3}
hash(美好) -> {doc3}
這樣，所有標題的初始化就完畢了，你會發現，資料量和標題的長度沒有關係。
使用者輸入“我愛”，分詞後變為{我，愛}，對各個分詞的hash進行記憶體檢索
hash(我)->{doc1, doc2}
hash(愛)->{doc1, doc2}
然後進行合併，得到最後的查詢結果是doc1+doc2。
=====例子END=====

問7：這個方法有什麼優點呢？
龍哥：存記憶體操作，能滿足很大的併發，時延也很低，佔用記憶體也不大，實現非常簡單快速

問8：有什麼不足呢？和傳統搜尋有什麼區別咧？
龍哥：這是一個快速過度方案，因為索引本身沒有落地，還是需要在資料庫中儲存固化的標題資料，如果不做高可用，資料恢復起來會比較慢。當然做高可用也是很容易的，建立兩份一樣的hash索引即可。另外，沒有做水平切分，但資料量非常非常非常大時，還是要做水平切分改進的。

基於ElasticSearch實現商品的全文檢索檢索
2018-04-15
Elasticsearch
高併發微信域名攔截檢測介面實現原理
2020-04-02
Mysql 如何實現全文檢索，關鍵詞跑分
2020-08-25
MySql
django框架怎麼實現高併發
2021-09-11
Django框架
Nginx 實現高併發的原理分析
2022-09-20
Nginx
php + MongoDB + Sphinx 實現全文檢索
2019-02-16
PHPMongoDB
快速構建高併發微服務
2020-08-29
微服務
用PHP實現高併發伺服器
2019-03-25
PHP伺服器
利用Redis實現高併發計數器
2018-12-14
Redis
ElasticSearch 實現分詞全文檢索 - 概述
2023-03-03
Elasticsearch分詞
在Go中如何實現併發
2023-09-28
Go
Redis如何防止高併發?
2024-04-10
Redis
Java高併發系列——檢視閱讀
2020-09-11
Java
php利用pcntl擴充套件實現高併發
2018-09-21
PHP套件
Springboot：高併發下耗時操作的實現
2019-11-17
Spring Boot
Java ConcurrentHashMap 高併發安全實現原理解析
2020-09-21
JavaHashMap
Elasticsearch 8.X：這個複雜的檢索需求如何實現？
2023-09-25
Elasticsearch
php實現歸併排序，快速排序
2021-04-15
PHP排序
資料庫系列：InnoDB下實現高併發控制
2023-11-07
資料庫
如何設計高併發介面？
2019-01-20
分析如何支撐高併發？
2019-10-31
ElasticSearch 實現分詞全文檢索 - delete-by-query
2023-03-15
Elasticsearch分詞delete
如何快速構建服務發現的高可用能力
2022-02-14
Nginx Ingress 高併發實踐
2020-09-02
Nginx
揭秘10億+高併發應用如何實現高效穩定的開發和運維
2024-06-18
運維
【高階RAG技巧】使用二階段檢索器平衡檢索的效率和精度
2024-04-26
時序資料庫的秘密 —— 快速檢索
2022-12-05
資料庫
【高併發】高併發環境下如何優化Tomcat效能？看完我懂了！
2020-04-17
優化Tomcat
Redis 實現高併發下的搶購 / 秒殺功能
2020-03-15
Redis
高併發系統的限流演算法與實現
2019-07-23
演算法
快速瞭解Python併發程式設計的工程實現(上)
2019-05-29
Python程式設計
快速瞭解Python併發程式設計的工程實現(下)
2019-05-30
Python程式設計
OpenCV特徵提取與影像檢索實現（附程式碼）
2018-03-03
OpenCV特徵
EF Code 如何應對高併發
2023-03-17
DB 合併多個欄位的模糊檢索
2021-06-04
[分散式][高併發]高併發架構
2019-03-19
分散式架構
SSM框架實現高併發秒殺API學習筆記
2019-02-19
SSM框架API筆記
lnmp+coreseek實現站內全文檢索(安裝篇)
2018-10-18
LNMP