Nutch:從搜尋引擎到網路爬蟲---分享公開課

劉華發表於2013-09-12

開源力量公開課,每週二晚線上線下同時開課,讓我們一起向IT技術大牛們學習! 課程題目: 開源力量公開課第三十一期- Nutch:從搜尋引擎到網路爬蟲

開課時間:2013年9月17日 19:00 - 21:30

現場或線上參課:http://www.osforce.cn/uncategorized/1703.html 現場參加(免費):北京市海淀區海淀西大街70號 , 3W咖啡二樓(海淀圖書城籍海樓對面) (上海的同學注意了!:本期公開課在北京舉行,不在上海,上海的同學需要通過線上參與) 線上直播(免費):郵件報名後將即時提供線上參課網址

報名: 發郵件到 osf@osforce.cn ,郵件標題:開源力量公開課第30期, 郵件正文:線上或現場+姓名+公司+職位+聯絡電話 郵件報名後,我們將即時回覆線上參課網址 若未收到不要前往現場的郵件,預設表示通過 不接受未報名空降,拒絕放鴿子

課程背景:Nutch誕生於2002年8月,是Apache旗下的一個用Java實現的開源搜尋引擎專案,自Nutch1.2版本之後,Nutch已經從搜尋引擎演化為網路爬蟲,接著Nutch進一步演化為兩大分支版本:1.X和2.X,最大的區別在於2.X對底層的資料儲存進行了抽象以支援各種底層儲存技術。在Nutch的進化過程中,產生了Hadoop、Tika和Gora三個Java開源專案。如今這三個專案都發展迅速,極其火爆,尤其是Hadoop,其已成為大規模資料處理的事實上的標準。Tika使用多種現有的開源內容解析專案來實現從多種格式的檔案中提取後設資料和結構化文字,Gora支援把大資料持久化到多種儲存實現。

課程大綱: 1、Nutch是什麼? Nutch是Apache旗下的Java開源專案,最初是一個搜尋引擎,現在是一個網路爬蟲。 2、Nutch的設計初衷? 商業搜尋引擎不開源,搜尋結果不純粹是根據網頁本身的價值進行排序,而是有眾多商業利益考慮。Nutch提供了開源的解決方案,幫助人們很容易地建立一個搜尋引擎,為使用者提供優質的搜尋結果,並能從一臺機器擴充套件到成百上千臺。 3、為什麼要學習Nutch? 搜尋技術是資訊時代的必備技術之一,沒有搜尋功能的軟體是無法想象的,而搜尋引擎是搜尋技術的集大成者。通過Nutch的學習,可以對百度、谷歌這樣的搜尋巨頭的內部機制有所瞭解,並能根據自己的需要打造適合自己的搜尋引擎,當然,也可以把搜尋技術應用到幾乎所有的軟體開發中 4、Nutch的設計目標 ? 每個月抓取幾十億網頁 為這些網頁維護一個索引 對索引檔案執行每秒上千次的搜尋 提供高質量的搜尋結果 以最小的成本運作 5、Nutch的發展歷程? 11年發展歷程,3大分支版本 強調重用,誕生了Java開源專案Hadoop、Tika、Gora 不重新發明輪子,使用了大量第三方開源專案 6、Nutch的整體架構? 外掛機制、資料抓取、資料解析、連結分析、建立索引、分散式搜尋等。 對於一個搜尋引擎來說,最終可能由成百上千臺伺服器組成,然而,初創公司最初可能只有幾臺機器作為嘗試,隨著公司的發展逐步增加機器,因此,線性可擴充套件的分散式儲存與分散式計算是至關重要的。 Nutch參考了Google的兩篇論文:MapReduce計算模型以及GFS儲存模型,並做了實現,後來把這兩大部分剝離出來形成獨立的開源專案Hadoop。由此可知,Hadoop誕生於Nutch,核心由分散式計算和分散式儲存組成,是MapReduce和GFS的JAVA開源實現。 Nutch使用HDFS作為儲存實現一直持續了很多年,然而使用HDFS有許多限制,後來考慮對儲存層進行抽象,剝離並形成了新的開源專案Gora,以支援多種儲存技術,包括RDBMS和NoSQL。 對於搜尋引擎來說,需要抓取各種各樣的檔案,解析這些不同格式的檔案是一個難題,為了簡化設計,也為了重用,於是誕生了Tika,一個專為內容分析而誕生的工具箱。 7、Nutch 3大分支版本? Nutch1.2是一個完整的搜尋引擎 Nutch1.7是一個基於HDFS的網路爬蟲 Nutch2.2.1是一個基於Gora的網路爬蟲 1.X系列可用於生產環境、2.X系列還不成熟 8、Nutch的應用領域? 站內搜尋引擎、全網搜尋引擎、垂直搜尋引擎、資料採集 9、nutch的使用? 一些具體的實踐方法及演示

講師介紹:

楊尚川,系統架構設計師,系統分析師,2013年度優秀開源專案APDPlat發起人,資深Nutch搜尋引擎專家。多年專業的軟體研發經驗,從事過管理資訊系統(MIS)開發、移動智慧終端(Win CE、Android、Java ME)開發、搜尋引擎(nutch、lucene、solr、elasticsearch)開發、大資料分析處理(Hadoop、Hbase、Pig、Hive)等工作。目前為獨立諮詢顧問,專注於大資料、搜尋引擎等相關技術,為客戶提供Nutch、Lucene、Hadoop、Solr、ElasticSearch、HBase、Pig、Hive、Gora等框架的解決方案、技術支援、技術諮詢以及培訓等服務。

時間安排: 7:00 - 7:30: 個人介紹 7:30 - 9:30 : 講課

開源力量公開課,每週二晚線上線下同時開課,讓我們一起向IT技術大牛們學習!


開源力量 | 向IT技術大牛們學習!

開源力量公開課 | 每週二晚線上線下同時開課

http://www.osforce.cn

相關文章