文字獲取和搜尋引擎簡介

爬蜥發表於2018-07-17

原文網址 : https://flycode.co/archives/44661

coursera課程 text retrieval and search engine 第一週推薦。

NLP定義

幫組理解語言句子的含義

例子：a dog is chasing a boy on the playground.

語義理解的一些分析方面

Lexical analysis:詞彙分析，找到動詞，形容詞，名詞等
Syntactic analysis : 句法分析；找到片語，比如A DOG,即找到既定的結構
Semantic analysis：語義分析，比如Dog代表什麼
Inference: 根據語義做推斷，上述例子可以推斷出一個可能，chasing可以知道這個男孩可能會害怕狗
Pragmatic analysis:根據句法本身去推斷為什麼這樣做，理解為什麼有人這樣描述，比如可能是想讓某人把狗喚回來，以免男孩被狗傷著

Bag of words:保留所有的單詞，重複的也會保留，但是不關心單詞在生個句子中出現的順序

文字獲取的分類

類似搜尋引擎的Pull模型：使用者擁有主動權，它具有Ad hoc屬性，就是說暫時性的需要，後續不再使用，比如搜尋到某個關鍵字的文件後，這個關鍵字就不再被使用

查詢和瀏覽的區別：查詢是使用者知道搜尋什麼，瀏覽是將內容放置供人檢視，而不是查詢

類似推薦系統的Push模型：系統擁有主動權，一個良好的推薦系統能夠給使用者推送它真正需要的資訊

文字獲取的方式

使用者給定查詢關鍵字在既有的資料集裡頭搜尋出想要的結果以供瀏覽。也可以稱作”Information Retrieve(IR)”,主要策略集中在如何通過給定的關鍵字查到結果。
文字獲取的方式一般有兩種：

第一是 document selection，即根據某種函式f給查詢q和檔案d作用後的結果來分類，[f(q,d)=1 / 0]，明確把文件分隔開，要麼完全相關，要麼完全不相關；
第二是 Ranking，它是計算相關性，並依次排列順序，關鍵在於如何說明某個檔案的相關性比另一個的相關性更大，當相關性大於某個閾值的時候就返回匹配的檔案[ f(q,d)>
THETA]

文字獲取(Text Retrive TR)和DBA對比：TR的資料結構是非結構化的，語義存在歧異，也沒有明確表明什麼需要返回，因而返回的是相關檔案；而DB是結構化的，語義明確，有完整的說明要返回什麼，因而返回的是完全匹配的記錄;
TR更需要有經驗的演變[使用者來判別那個結果更好]而來查詢結果

排序函式的分類

Similarity-based models ，相似性 f(q,d) = similarity(q,d)
Probabilistic models ，概率模型 f(d,q) = p(R=1| d,q) r between{0,1
},假設查詢關鍵字和文件都是隨機變數R的觀察結果，對於特定的文件，查詢的文件定義分數為R等於1的概率
probabilistic inference model概率推斷 f(d,q)=p(d->
q) ;
axiomatic model 查詢一個rank函式能夠滿足給定的條件，即為結果

這幾種型別有著共同的策略，一般來說有這麼幾種方式：

terms frequency(TF) 出現的次數
document length ，一般了說某個查詢關鍵字在很長的文件裡面出現很多的次數比在短檔案裡面出現次數多顯得更無意義，從某種角度來講，長檔案出現的關鍵字本來就趨向於更多
document frequency(DF) 即關鍵字在文件出現的次數佔總共內容的比例，意在出現頻率

向量空間模型簡介[Vector space Model(VSM)]

它是一個框架，通過詞（Term）向量的方式來代表一個 doc/query，每一個Term都可以是不同的概念，每一個又代表不同的維度，N term代表N維，對於一個Query vector來說，它可以表示為q=(x1,x2,x3…)每一個xi表示term的加權，Doc vector類似，因此查詢和文件之間的關係可以相識於q,和d的相似性 relevance(q,d) 相似於 similarity(q,d) = f(q,d)

來源：https://juejin.im/post/5b4df80be51d4519945fd50c

文字獲取和搜尋引擎如何評估一個演算法是否有效
2019-02-25
演算法
搜尋引擎ElasticSearch18_ElasticSearch簡介1
2024-05-23
Elasticsearch
Shodan搜尋引擎介紹
2020-08-19
搜尋引擎框架介紹
2019-05-13
框架
Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋
2021-06-17
Elasticsearch
搜尋引擎-03-搜尋引擎原理
2024-04-04
搜尋排序技術簡介
2022-03-13
排序
海量資料搜尋---搜尋引擎
2018-11-13
搜尋欄獲取百度suggestion
2021-09-09
API介面獲取搜尋詞統計？
2023-04-10
API
搜尋引擎es-分詞與搜尋
2024-08-27
分詞
用elasticsearch和nuxtjs搭建bt搜尋引擎
2018-10-02
ElasticsearchUXJS
pbootcms獲取結果頁面的搜尋keyword值和tag值
2024-09-27
boot
sphinx 全文搜尋引擎
2019-02-16
高效利用搜尋引擎
2018-08-17
ElasticSearch全文搜尋引擎
2019-07-29
Elasticsearch
laravel 簡單限制搜尋引擎爬蟲頻率
2022-05-27
Laravel爬蟲
點選搜尋框清空搜尋提示文字
2018-03-16
高效的使用搜尋引擎
2018-11-07
搜尋引擎與前端SEO
2018-05-24
前端
python 寫的搜尋引擎
2019-08-31
Python
搜尋引擎優化（SEO）
2020-05-17
優化
BTFILM電影搜尋引擎
2019-05-11
Django整合搜尋引擎Elasticserach
2019-06-04
DjangoAST
認識搜尋引擎 Elasticsearch
2021-07-15
Elasticsearch
MongoDB中的完整和部分文字搜尋
2024-05-08
MongoDB
直播開發app，實時搜尋、搜尋引擎框
2022-03-29
APP
57_初識搜尋引擎_分散式搜尋引擎核心解密之query phase
2024-10-02
分散式解密
請問PbootCMS獲取結果頁面的搜尋keyword值和tag值
2024-11-09
boot
Tomcat和搜尋引擎網路爬蟲的攻防
2018-10-26
Tomcat爬蟲
解密Elasticsearch：深入探究這款搜尋和分析引擎
2023-05-06
解密Elasticsearch
Mac上神奇的內建搜尋引擎——Spotlight(聚焦搜尋)
2020-12-14
Mac
基於 Mysql 實現一個簡易版搜尋引擎
2021-08-29
MySql
搜尋選講、分塊初步、莫隊簡介
2024-08-24
個人部落格 SEO 優化（1）：搜尋引擎原理介紹
2018-04-14
優化
雲端全託管搜尋引擎Elasticsearch Service產品介紹
2024-12-10
Elasticsearch
搜尋引擎-01-概覽
2024-04-02
設定搜尋引擎遮蔽 CSDN
2022-02-15