中文搜尋引擎技術揭密:系統架構(1)

阿源發表於2005-12-11

  【e800.com.cn 編者按】網際網路發展的今天,一方面離不開其開放、共享的特性帶給人們的全新體驗,另一方面也離不開數以億計的為其提供各類豐富內容的網路節點。網際網路被普及前,人們查閱資料第一想到的便是擁有大量書籍資料的圖書館,到了今天你怎麼想?或許今天的很多人都會選擇一種更方便、快捷、全面、準確的方式——網際網路。你可以坐在家裡輕點幾下滑鼠就查到想要的各類資訊,這在網際網路沒有被普及之前,還都僅是一個夢而已,但如今這一切已成為了可能。

  而幫助你通過整個網際網路快速查詢到目標資訊的就是越來越被重視的搜尋引擎。有關搜尋引擎的技術資料網路上已經很多,關於搜尋引擎經濟的多方面報導各大媒體也都已經鋪天蓋地,因此在這裡小編並不想過多的談論這些方面的感受,只想在本次“中文搜尋引擎技術揭密”系列文章全部完成之際來聊一下搜尋引擎對小編的深遠影響。

  記得2000年左右網路上開始大量出現免費個人主頁空間,當時的小編還只是一個剛剛進入IT圈的小朋友,看著這些空間那叫一個口水橫流,於是乎立刻申請了一個。又經過了一個多月的刻苦修煉和先後三次的改版,自己有生以來的第一個個人主頁誕生了。可看著每天寥寥無幾的訪問量,心裡那叫一個難受,可一時間也想不到好辦法解決問題。突然有天發現一篇介紹如何在搜尋引擎註冊自己個人網站的文章,於是小編就照著文章所講的分別在SOHU、網易等搜尋引擎的相關分類目錄下注冊了自己的個人主頁。直至今日,小編才確切的知道了當時盛行的搜尋引擎都屬“目錄搜尋引擎”。這實際上是小編第一次使用、認識搜尋引擎,再後來通過每天個人主頁不斷上升的數字小編感覺到了搜尋引擎的神奇。

  其實正是由於搜尋引擎,才使小編的個人主頁被更多的人所熟識,以至於後來有多份工作都是因為這個個人主頁所帶來的機會。其實這些經歷或許很多人都有切身的體會,同樣也有很多人因此去全身投入到網際網路工作中。這正像那句話講的“世界真奇妙,不看不知道”,小編在此多加一句“到底怎麼看,搜尋引擎幫你忙!”

  【e800.com.cn 專稿】網際網路在近10年的得到飛速發展,網際網路正在逐漸深入人們的生活,改變人們的生活。網際網路經濟也經歷了風風雨雨,從緩慢起步到急速膨脹,從泡沫破滅到逐步回暖;從“網路廣告”到“拇指經濟”,從“網路遊戲”到“搜尋力經濟”。目前,搜尋引擎成為最受人們關注的焦點之一,也成為億萬富翁的製造搖籃。越來越多的公司都希望在搜尋引擎這座金礦中挖到筐金子,其中許多人會選擇擁有自己的搜尋引擎。國內著名搜尋引擎公司百度(http://www.baidu.com)總裁李彥巨集說:搜尋引擎不是人人都能做的領域,進入的門檻比較高。

  搜尋引擎的門檻到底有多高?搜尋引擎的門檻主要是技術門檻,包括網頁資料的快速採集、海量資料的索引和儲存、搜尋結果的相關性排序、搜尋效率的毫秒級要求、分散式處理和負載均衡、自然語言的理解技術等等,這些都是搜尋引擎的門檻。對於一個複雜的系統來說,各方面的技術固然重要,但整個系統的架構設計也同樣不可忽視,搜尋引擎也不例外。

  搜尋引擎技術和分類

  搜尋引擎的技術基礎是全文檢索技術,從20世紀60年代,國外對全文檢索技術就開始有研究。全文檢索通常指文字全文檢索,包括資訊的儲存、組織、表現、查詢、存取等各個方面,其核心為文字資訊的索引和檢索,一般用於企事業單位。隨著網際網路資訊的發展,搜尋引擎在全文檢索技術上逐漸發展起來,並得到廣泛的應用,但搜尋引擎還是不同於全文檢索。搜尋引擎和常規意義上的全文檢索主要區別有以下幾點:

  1、資料量

  傳統全文檢索系統面向的是企業本身的資料或者和企業相關的資料,一般索引庫規模多在GB級,資料量大的也只有幾百萬條;但網際網路網頁搜尋需要處理幾十億的網頁,搜尋引擎的策略都是採用伺服器群集和分散式計算技術。

  2、內容相關性

  資訊太多,查準和排序就特別重要,Google等搜尋引擎採用網頁連結分析技術,根據網際網路上網頁被連結次數作為重要性評判的依據;但全文檢索的資料來源中相互連結的程度並不高,不能作為判別重要性的依據,只能基於內容的相關性排序。

  3、安全性

  網際網路搜尋引擎的資料來源都是網際網路上公開的資訊,而且除了文字正文以外,其它資訊都不太重要;但企業全文檢索的資料來源都是企業內部的資訊,有等級、許可權等限制,對查詢方式也有更嚴格的要求,因此其資料一般會安全和集中地存放在資料倉儲中以保證資料安全和管理的要求。

  4、個性化和智慧化

  搜尋引擎面向的是網際網路訪問者,由於其資料量和客戶數量的限制,自然語言處理技術、知識檢索、知識挖掘等計算密集的智慧計算技術很難應用,這也是目前搜尋引擎技術努力的方向;而全文檢索資料量小,檢索需求明確,客戶量少,在智慧化和個性可走得更遠。

  搜尋引擎與全文檢索除了以上的區別外,還結合網際網路資訊的特點形成了三個不同的型別:

  全文檢索搜尋引擎:全文搜尋引擎是名副其實的搜尋引擎,國外具代表性的有Google (http://www.google.com) 、yahoo(http://search.yahoo.com) 、AllTheWeb (http://www.alltheweb.com ) 等,國內著名的有百度(http://www.Baidu.com)、中搜(http://www.zhongsou.com)。它們都是通過從網際網路上提取的各個網站的資訊(以網頁文字為主)而建立的資料庫,檢索與使用者查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給使用者,也是目前常規意義上的搜尋引擎。

  目錄搜尋引擎:目錄索引雖然有搜尋功能,但在嚴格意義上算不上是真正的搜尋引擎,僅僅是按目錄分類的網站連結列表而已。使用者完全可以不用進行關鍵詞查詢,僅靠分類目錄也可找到需要的資訊。國外比較著名的目錄索引搜尋引擎有yahoo(http://www.yahoo.com)Open Directory Project(DMOZ)(http://www.dmoz.com/)、LookSmart(http://www.looksmart.com)等。國內的搜狐(http://www.sohu.com)、新浪(http://www.sina.com)、網易(http://www.163.com)搜尋也都具有這一類功能。

  元搜尋引擎:元搜尋引擎在接受使用者查詢請求時,同時在其它多個引擎上進行搜尋,並將結果返回給使用者。著名的元搜尋引擎有Dogpile(http://www.dogpile.com)、Vivisimo(http://www.vivisimo.com)等,國內元搜尋引擎中具代表性的有搜星搜尋引擎(http://www.soseen.com/),優客搜尋(http://www.yok.com)。在搜尋結果排列方面,有的直接按來源引擎排列搜尋結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。

  其他的像新浪(http://search.sina.com.cn)、網易(http://search.163.com)、A9(http://www.A9.com)等搜尋引擎都是呼叫其它全文檢索搜尋引擎,或者在其搜尋結果的基礎上做了二次開發。

相關文章