瞭解一下搜尋引擎的結構

weixin_33866037發表於2017-02-22

搜尋引擎：是一類系統或者軟體系統。
作用：從文件的集合中查詢（檢索）出匹配資訊需求（查詢）的文件。

資訊需求：有單詞、問題等構成。

wiser：是一個全文搜尋引擎的工具吧（？？？）。

全文：全部的句子，當檢索的物件為“由文字構成的文件中的全部句子”時，對該文件進行檢索就成為全文檢索。（也就是檢索的物件全部是文件）
[實現這種全文搜尋的系統是全文搜尋引擎（full-text search engine）]

現代的搜搜引擎有：谷歌、百度、雅虎等web檢索。

搜尋引擎的基本結構

索引管理器（index Manager）
索引檢索器（index searcher）
索引構建起（indexer）
文件管理器（Document Manager）

索引管理器：
作用：管理帶有索引結構的資料。
索引結構：用於高速檢索的資料結構
（對索引的訪問也是通過索引管理器進行的）
索引管理器通常是將索引作為二級儲存上的二進位制檔案進行管理的。
（而且還經常會通過壓縮的索引來達到從二級儲存載入的資料量，提升檢索處理效率的目的）=====> 二級儲存一般是怎麼樣？（二級結構）

二級儲存（secondary storage，auxiliary storage）是計算機主儲存器或記憶體之外的所有可訪問資料儲存器。
二級儲存:是計算機主儲存器或記憶體之外的所有可訪問資料儲存器。外部儲存以及輔助儲存是其同義詞。

索引檢索器：是利用索引進行全文搜尋處理的元件。
根據來自檢索應用程式使用者的查詢，協同索引管理器進行檢索處理；
根據某種標準對於查詢相匹配的檢索結果排序，並將排序在前面的結果返回給應用程式。（瀏覽器上經常會看到的對應的搜尋結果的目錄條）

索引構建器：從作為索引物件的文件中生成索引的元件。
會先通過解析將文字文件分解為單詞序列，然後再將單詞序列轉換為索引結構；
索引構建（Index construction）：生成索引

文件管理器：管理文件資料庫的元件，文件資料中儲存著作為物件的文件。
先從文件資料庫中取出與查詢相匹配的文件，然後在根據需要從文件中提取一部分內容作為摘要。
對應著文件特定的ID（文件編號）來儲存文件的內容。
經常會看到將資料庫管理系統(DBMS)和基於二級儲存的資料庫管理器（DBM）等用作文件管理器。
（文件管理的文件資料庫既可以在構建索引的階段歲索引一同構建，也可以提前構建）

爬蟲不是搜尋引擎的一部分，但是和搜尋引擎密切相關。
爬蟲：（Crawler）用於搜尋web上的html檔案等文件的系統（機器人）。
Eg：用於web檢索的爬蟲就是通過追隨web頁面上的超連結來收集全世界的html網頁的。全世界的web頁面正以驚人的速度不斷增長，所以爬蟲的任務就是：高校的收集這些網頁。
搜尋排序系統：
PageRank（google）系統為程式碼的搜尋排序系統是給作為檢索物件的文件打分的系統。
Eg：在web檢索中，通常會以考量了查詢與文件的關聯性以及文件的熱度後得出分數為基準，將檢索的結果排序後提供給應用程式的應用。搜尋排序系統正是用於次目的、能（機械地）算出文件熱門度的系統。
pageRank ：這個東西應該多瞭解
對於爬蟲，我們應該也寫一個伺服器等程式對網頁上面的內容進行爬；

PS:
1、瞭解搜尋引擎，以及全文搜尋引擎
2、搜尋引擎的一般構成（4個部分）
3、搜尋引擎的各個部分和爬蟲、PageRank的關係。

需要學習的內容：
1、爬蟲
2、pageRank的具體演算法等

搜尋引擎的體系結構
2007-04-03
深度解析搜尋引擎的原理結構
2015-05-14
為何AI更懂你：向量搜尋，瞭解一下！
2024-08-21
AI
搜尋引擎-03-搜尋引擎原理
2024-04-04
搜尋引擎索引的資料結構和演算法
2016-05-31
索引資料結構演算法
搜尋引擎索引資料結構和演算法
2016-05-08
索引資料結構演算法
簡單瞭解一下pinia的結構
2022-03-25
分散式搜尋引擎Elasticsearch的架構分析
2020-12-08
分散式Elasticsearch架構
Scrapy分散式爬蟲打造搜尋引擎-（八）elasticsearch結合django搭建搜尋引擎
2017-07-01
分散式爬蟲ElasticsearchDjango
海量資料搜尋---搜尋引擎
2018-11-13
SEO是什麼意思：全面瞭解搜尋引擎最佳化概念
2024-06-15
bt引擎-螞蟻磁力搜尋教程大全，如何使用搜尋引擎查詢磁力連結
2024-07-10
雅虎釋出API，構建自己的搜尋引擎
2008-09-08
API
JavaScript裡的資料結構----連結串列，瞭解一下？
2018-05-24
JavaScript資料結構
Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋
2021-06-17
Elasticsearch
搜尋引擎es-分詞與搜尋
2024-08-27
分詞
ElasticSearch全文搜尋引擎
2019-07-29
Elasticsearch
搜尋引擎語法
2016-05-09
搜尋引擎命令大全
2013-07-31
搜尋引擎程式碼
2005-05-08
搜尋引擎面試題
2013-04-02
面試題
搜尋引擎必看的入門書籍——《搜尋引擎：資訊檢索實踐》
2011-06-09
【資料結構】搜尋樹
2020-12-08
資料結構
python 寫的搜尋引擎
2019-08-31
Python
對於 Python 抓取 Google 搜尋結果的一些瞭解
2019-01-02
PythonGo
二叉搜尋樹的結構
2024-10-20
使用Google百度等搜尋引擎的常用搜尋技巧
2019-03-18
Go
Mac上神奇的內建搜尋引擎——Spotlight(聚焦搜尋)
2020-12-14
Mac
Java 中最大的資料結構：LinkedHashMap 瞭解一下？
2018-05-19
Java資料結構HashMap
搜尋引擎優化（SEO）
2020-05-17
優化
搜尋引擎框架介紹
2019-05-13
框架
Django整合搜尋引擎Elasticserach
2019-06-04
DjangoAST
認識搜尋引擎 Elasticsearch
2021-07-15
Elasticsearch
搜尋引擎與前端SEO
2018-05-24
前端
搜尋引擎原理及使用
2017-03-03
直播開發app，實時搜尋、搜尋引擎框
2022-03-29
APP
做一個搜尋引擎的思路
2002-09-04
常見的搜尋引擎提交地址
2007-05-23

瞭解一下搜尋引擎的結構

相關文章