瞭解一下搜尋引擎的結構

weixin_33866037發表於2017-02-22

搜尋引擎: 是一類系統或者軟體系統。
作用:從文件的集合中查詢(檢索)出匹配資訊需求(查詢)的文件。

資訊需求:有單詞、問題等構成。

wiser: 是一個全文搜尋引擎的工具吧(???)。

全文:全部的句子,當檢索的物件為“由文字構成的文件中的全部句子”時,對該文件進行檢索就成為全文檢索。(也就是檢索的物件全部是文件)
[實現這種全文搜尋的系統是全文搜尋引擎(full-text search engine)]

現代的搜搜引擎有:谷歌、百度、雅虎等web檢索。

1205674-77f36e3998645cec.png
搜尋引擎的基本結構

索引管理器(index Manager)
索引檢索器(index searcher)
索引構建起(indexer)
文件管理器(Document Manager)

索引管理器:
作用:管理帶有索引結構的資料。
索引結構:用於高速檢索的資料結構
(對索引的訪問也是通過索引管理器進行的)
索引管理器通常是將索引作為二級儲存上的二進位制檔案進行管理的。
(而且還經常會通過壓縮的索引來達到從二級儲存載入的資料量,提升檢索處理效率的目的)=====> 二級儲存一般是怎麼樣?(二級結構)

二級儲存(secondary storage,auxiliary storage)是計算機主儲存器或記憶體之外的所有可訪問資料儲存器。
二級儲存:是計算機主儲存器或記憶體之外的所有可訪問資料儲存器。外部儲存以及輔助儲存是其同義詞。

索引檢索器:是利用索引進行全文搜尋處理的元件。
根據來自檢索應用程式使用者的查詢,協同索引管理器進行檢索處理;
根據某種標準對於查詢相匹配的檢索結果排序,並將排序在前面的結果返回給應用程式。(瀏覽器上經常會看到的對應的搜尋結果的目錄條)

索引構建器:從作為索引物件的文件中生成索引的元件。
會先通過解析將文字文件分解為單詞序列,然後再將單詞序列轉換為索引結構;
索引構建(Index construction):生成索引

文件管理器:管理文件資料庫的元件,文件資料中儲存著作為物件的文件。
先從文件資料庫中取出與查詢相匹配的文件,然後在根據需要從文件中提取一部分內容作為摘要。
對應著文件特定的ID(文件編號)來儲存文件的內容。
經常會看到將資料庫管理系統(DBMS)和基於二級儲存的資料庫管理器(DBM)等用作文件管理器。
(文件管理的文件資料庫既可以在構建索引的階段歲索引一同構建,也可以提前構建)

爬蟲不是搜尋引擎的一部分,但是和搜尋引擎密切相關。
爬蟲:(Crawler) 用於搜尋web上的html檔案等文件的系統(機器人)。
Eg:用於web檢索的爬蟲就是通過追隨web頁面上的超連結來收集全世界的html網頁的。全世界的web頁面正以驚人的速度不斷增長,所以爬蟲的任務就是:高校的收集這些網頁。
搜尋排序系統:
PageRank(google)系統為程式碼的搜尋排序系統是給作為檢索物件的文件打分的系統。
Eg:在web檢索中,通常會以考量了查詢與文件的關聯性以及文件的熱度後得出分數為基準,將檢索的結果排序後提供給應用程式的應用。搜尋排序系統正是用於次目的、能(機械地)算出文件熱門度的系統。
pageRank : 這個東西應該多瞭解
對於爬蟲,我們應該也寫一個伺服器等程式對網頁上面的內容進行爬;

PS:
1、瞭解搜尋引擎,以及全文搜尋引擎
2、搜尋引擎的一般構成(4個部分)
3、搜尋引擎的各個部分和爬蟲、PageRank的關係。

需要學習的內容:
1、爬蟲
2、pageRank的具體演算法等

相關文章