理解正向索引

王滔發表於2014-04-05

倒排索引也叫做反向索引(inverted單詞也有反轉的意思，只不過大家喜歡翻譯成倒排索引)。

倒排索引在搜尋引擎中經常用到，倒排索引也叫做反向索引。某天在想,為什麼叫做倒排索引呢？倒過來的，反轉過來的。那麼，非倒排索引是什麼樣子的。解釋一大堆。雲裡霧裡。

後來知道，反向索引是相對正向索引而言的，那什麼是正向索引？我想，瞭解了正向索引，就能知道反向索引的產生背景了。

下面是網上一些資料說法：

每個檔案都對應一個檔案ID，檔案內容被表示為一串關鍵詞的*。實際上在搜尋引擎索引庫中，關鍵詞也已經轉換為關鍵詞ID。這樣的資料結構就稱為正向索引。
倒排索引正向索引還不能直接用於排名。假設使用者搜尋關鍵詞2，如果只存在正向索引的話，排名程式需要掃描所有索引庫中的檔案，找出包含關鍵詞2 的檔案(索引檔案)，再進行相關性計算。這樣的計算量無法滿足實時返回排名結果的要求。
所以搜尋引擎會將正向索引資料庫重新構造為倒排索引，把檔案對應到關鍵詞的對映轉換為關鍵詞到檔案的對映，每個關鍵詞都對應著一系列檔案，這些檔案中都出現了這個關鍵詞。

搜尋引擎工作原理之預處理

預處理總共分為幾個步驟：1.提取文字、2.中文分詞、3.去停止詞、4.消除噪聲、5.去重、6.正向索引、7.倒排索引、8.連結關係計算、9.特殊檔案處理

上面說法感覺不是很明白。現在整理一下自己的理解

為每篇文件生成一個關鍵詞集合，也就是提取這篇文件中的所有關詞

比如文件1

經過分詞，提取文件1中出現的關鍵詞有20個

這個20個關鍵詞集合起來，每個關鍵詞都會順便記錄它出現在文件的位置，出現的次數等資訊

正向索引的結構像下面這樣子的：

文件編號1 此文件中出現的關鍵詞列表(單詞1,出現位置,出現次數;單詞2,出現位置,出現次數………..)

文件編號2 此文件中出現的關鍵詞列表

這是正向索引。

如果要搜尋關鍵詞”單詞1”，則去正向索引可以直接查出來哪些文件包含了單詞1。正向索引還是需要遍歷掃描(掃描所有正向索引檔案才知道哪些文件帶有某個關鍵詞)，效能比較慢。

頓時明白了某個資料中提到這句話：實際上，時間、記憶體、處理器等等資源的限制，技術上正向索引是不能實現的。

跟正向索引相比，反向索引就是反過來。怎麼個反過來法呢？

左邊是關鍵詞，右邊是文件編號，如下：

關鍵詞1 帶有此關鍵詞的文件編號1，文件編號2….

關鍵詞2 帶有此關鍵詞的文件編號1，文件編號2….

很多介紹太學術化了,即便是做技術開發的，沒有實際應用過,一時難以理解。

作為初級階段的理解,並不完善,有錯誤才會加深理解。期待以後完善,歡迎指正。大部分介紹都是圖的形式,有機會我想看看索引的程式碼實現層面，也許能夠加深理解。

正向代理和反向代理的形象理解
2020-04-20
理解索引：索引優化
2018-06-04
索引優化
理解索引（上）
2018-05-26
索引
深入理解MySQL索引
2020-03-18
MySql索引
主鍵local索引、unique local索引、分割槽索引順序的理解
2017-09-12
索引
mysql中BTree索引的理解
2021-09-11
MySql索引
MongoDB索引的簡單理解
2021-09-14
MongoDB索引
理解Mysql索引原理及特性
2023-12-13
MySql索引
SQLServer索引優化（2）：對於索引中include的理解
2020-12-11
SQLServer索引優化
小白(新手)如何徹底理解索引？
2020-11-19
索引
MySQL索引理解和應用
2022-11-29
MySql索引
深入理解MySQL系列之索引
2020-12-24
MySql索引
資料庫——對索引的理解
2020-09-26
資料庫索引
理解 MySQL（2）：索引與優化
2015-05-25
MySql索引優化
nginx 做正向代理配置
2020-05-04
Nginx
正向代理與反向代理
2019-07-30
反向代理與正向代理
2019-05-09
正向代理和反向代理
2018-03-26
nginx正向代理、反向代理
2024-09-09
Nginx
深入理解 MySQL 索引底層原理
2020-03-17
MySql索引
[貝聊科技]理解資料庫索引
2018-05-29
資料庫索引
理解索引：HBase介紹和架構
2018-06-07
索引架構
如何理解並正確使用 MySQL 索引
2017-07-14
MySql索引
理解索引（2）反轉鍵索引的誤區（摘自老白DBA日記）
2010-12-24
索引
MySQL（二）：快速理解MySQL資料庫索引
2020-12-20
MySql資料庫索引
說說我對 TypeScript 索引簽名理解
2021-10-20
TypeScript索引
通過例項來理解MySQL索引薦
2014-09-25
MySql索引
理解Sybase ASE資料庫中的索引
2009-02-22
資料庫索引
計算正向智算跨越
2022-09-01
Nginx-正向代理實現
2024-10-21
Nginx
你真的理解索引嗎？從資料結構層面解析mysql索引原理
2020-08-10
索引資料結構MySql
深入理解Apache Hudi非同步索引機制
2022-07-07
Apache非同步索引
RocketMQ架構原理解析（三）：訊息索引
2021-12-10
MQ架構索引
圖解｜這次，徹底理解MySQL的索引
2023-02-14
圖解MySql索引
Nginx之路--配置正向代理、反向代理
2020-07-21
Nginx
反向代理和正向代理區別
2020-04-07
正向代理與反向代理總結
2019-04-09
圖解正向代理與反向代理
2019-04-17
圖解

理解正向索引

相關文章