搜尋學習基礎--倒排索引的過程解讀
下面是兩篇文件,我們要對其建立索引
Doc1: He is a coder,and she is a coder too.
Doc2:Json is a doctor,but he was a coder.
第一步:獲取關鍵詞keywords
a:分詞(按空格分詞):
Doc1: [He] [is] [a] [coder],[and] [she] [is] [a] [coder] [too]
Doc2: [Json] [is] [a] [doctor] [he] [a] [coder]
b:去除 stopwords(無意義的關鍵詞)
Doc1:[He] [a] [coder] [she] [a] [coder]
Doc2:[Json] [is] [a] [doctor] [he] [a] [coder]
c:統一(大小寫,時態)
Doc1:[he] [a] [coder] [she] [a] [coder]
Doc2:[json] [a] [doctor] [he] [a] [coder]
第二步:建立倒排索引
//關鍵詞出現的文章
keywords | doc |
---|---|
[he] | 1,2 |
[a] | 1,2 |
[coder] | 1,2 |
[she] | 1 |
[json] | 2 |
[doctor] | 2 |
//更好的結構 記錄關鍵詞出現的文章,出現頻率(對結果排序),出現位置(使用者快速鎖定高亮位置)
keywords | doc[times] | doc[index] |
---|---|---|
[he] | 1[1],2[1] | 1[1],2[4] |
[a] | 1[2],2[2] | 1[2,5],2[2,5] |
[coder] | 1[2],2[1] | 1[3,6],2[6] |
[she] | 1[1] | 1[4] |
[json] | 2[1] | 2[1] |
[doctor] | 2[1] | 2[3] |
第三步:搜尋
a.輸入搜尋語句: doctor and coder
b.獲取a中的關鍵詞,得到[doctor] [coder]
c.從索引表中得到:[coder]在Doc1中出現2次,在Doc2中出現1次,[doctor] 在Doc2中出現1次。
d.由此可以得到Doc2因為關聯兩個關鍵詞,關聯性更高(如果關聯關鍵詞數量一次,則可以根據出現頻率排序),搜尋出的結果順序為:Doc2,Doc1
程式碼實現
相關文章
- 【預研】搜尋引擎基礎——inverted index(倒排索引)Index索引
- 後端技術雜談1:搜尋引擎基礎倒排索引後端索引
- 搜尋引擎:MapReduce實戰----倒排索引索引
- 【Elasticsearch學習】文件搜尋全過程Elasticsearch
- 【elasticsearch】搜尋過程詳解Elasticsearch
- 分散式搜尋引擎Elasticsearch基礎入門學習分散式Elasticsearch
- Css基礎學習—索引CSS索引
- Solr搜尋基礎Solr
- 用 Golang 寫一個搜尋引擎(0x02)--- 倒排索引技術Golang索引
- 基於策略搜尋的強化學習方法強化學習
- 0基礎學演算法 搜尋篇第一講 深度優先搜尋演算法
- 基於python的種子搜尋網站--開發過程Python網站
- ElasticSearch 倒排索引(Inverted Index)| 什麼是倒排索引?Elasticsearch索引Index
- 強化學習(十八) 基於模擬的搜尋與蒙特卡羅樹搜尋(MCTS)強化學習
- 搜尋引擎核心技術與演算法 —— 詞項詞典與倒排索引優化演算法索引優化
- 直播平臺開發,基礎搜尋方式之拼音搜尋
- Lucene原始碼解析--搜尋過程<二>原始碼
- 無程式設計基礎利用java學習OO思想的過程程式設計Java
- MySQL InnoDB搜尋索引的StopwordsMySql索引
- 搜尋引擎工作的基礎流程與原理
- 深度學習在攜程搜尋詞義解析中的應用深度學習
- 搜尋引擎核心技術與演算法 —— 詞項詞典與倒排索引最佳化演算法索引
- iOS 基礎知識學習目錄索引iOS索引
- 【學習】SQL基礎-018-索引SQL索引
- 【深度解讀】App Store搜尋廣告APP
- 折半搜尋學習筆記筆記
- 阿里媽媽資深技術專家劉凱鵬解讀基於深度學習的智慧搜尋營銷阿里深度學習
- 詳細說明搜尋引擎優化的過程優化
- oracle 基礎溫習之 儲存過程Oracle儲存過程
- Android基礎 PopupWindow實現漂亮的搜尋Android
- 軟體測試技術基礎學習之測試過程
- Win10系統通過禁用索引器回退加快搜尋索引速度的方法Win10索引
- Win10系統透過禁用索引器回退加快搜尋索引速度的方法Win10索引
- 0演算法基礎學演算法 搜尋篇第二講 BFS廣度優先搜尋的思想演算法
- 筆記五:倒排索引筆記索引
- MapReduce實戰:倒排索引索引
- mapreduce實現倒排索引索引
- 程式設計師的基礎生存技能:搜尋引擎程式設計師