Nutch:從搜尋引擎到網路爬蟲---分享公開課
開源力量公開課,每週二晚線上線下同時開課,讓我們一起向IT技術大牛們學習! 課程題目: 開源力量公開課第三十一期- Nutch:從搜尋引擎到網路爬蟲
開課時間:2013年9月17日 19:00 - 21:30
現場或線上參課:http://www.osforce.cn/uncategorized/1703.html 現場參加(免費):北京市海淀區海淀西大街70號 , 3W咖啡二樓(海淀圖書城籍海樓對面) (上海的同學注意了!:本期公開課在北京舉行,不在上海,上海的同學需要通過線上參與) 線上直播(免費):郵件報名後將即時提供線上參課網址
報名: 發郵件到 osf@osforce.cn ,郵件標題:開源力量公開課第30期, 郵件正文:線上或現場+姓名+公司+職位+聯絡電話 郵件報名後,我們將即時回覆線上參課網址 若未收到不要前往現場的郵件,預設表示通過 不接受未報名空降,拒絕放鴿子
課程背景:Nutch誕生於2002年8月,是Apache旗下的一個用Java實現的開源搜尋引擎專案,自Nutch1.2版本之後,Nutch已經從搜尋引擎演化為網路爬蟲,接著Nutch進一步演化為兩大分支版本:1.X和2.X,最大的區別在於2.X對底層的資料儲存進行了抽象以支援各種底層儲存技術。在Nutch的進化過程中,產生了Hadoop、Tika和Gora三個Java開源專案。如今這三個專案都發展迅速,極其火爆,尤其是Hadoop,其已成為大規模資料處理的事實上的標準。Tika使用多種現有的開源內容解析專案來實現從多種格式的檔案中提取後設資料和結構化文字,Gora支援把大資料持久化到多種儲存實現。
課程大綱: 1、Nutch是什麼? Nutch是Apache旗下的Java開源專案,最初是一個搜尋引擎,現在是一個網路爬蟲。 2、Nutch的設計初衷? 商業搜尋引擎不開源,搜尋結果不純粹是根據網頁本身的價值進行排序,而是有眾多商業利益考慮。Nutch提供了開源的解決方案,幫助人們很容易地建立一個搜尋引擎,為使用者提供優質的搜尋結果,並能從一臺機器擴充套件到成百上千臺。 3、為什麼要學習Nutch? 搜尋技術是資訊時代的必備技術之一,沒有搜尋功能的軟體是無法想象的,而搜尋引擎是搜尋技術的集大成者。通過Nutch的學習,可以對百度、谷歌這樣的搜尋巨頭的內部機制有所瞭解,並能根據自己的需要打造適合自己的搜尋引擎,當然,也可以把搜尋技術應用到幾乎所有的軟體開發中 4、Nutch的設計目標 ? 每個月抓取幾十億網頁 為這些網頁維護一個索引 對索引檔案執行每秒上千次的搜尋 提供高質量的搜尋結果 以最小的成本運作 5、Nutch的發展歷程? 11年發展歷程,3大分支版本 強調重用,誕生了Java開源專案Hadoop、Tika、Gora 不重新發明輪子,使用了大量第三方開源專案 6、Nutch的整體架構? 外掛機制、資料抓取、資料解析、連結分析、建立索引、分散式搜尋等。 對於一個搜尋引擎來說,最終可能由成百上千臺伺服器組成,然而,初創公司最初可能只有幾臺機器作為嘗試,隨著公司的發展逐步增加機器,因此,線性可擴充套件的分散式儲存與分散式計算是至關重要的。 Nutch參考了Google的兩篇論文:MapReduce計算模型以及GFS儲存模型,並做了實現,後來把這兩大部分剝離出來形成獨立的開源專案Hadoop。由此可知,Hadoop誕生於Nutch,核心由分散式計算和分散式儲存組成,是MapReduce和GFS的JAVA開源實現。 Nutch使用HDFS作為儲存實現一直持續了很多年,然而使用HDFS有許多限制,後來考慮對儲存層進行抽象,剝離並形成了新的開源專案Gora,以支援多種儲存技術,包括RDBMS和NoSQL。 對於搜尋引擎來說,需要抓取各種各樣的檔案,解析這些不同格式的檔案是一個難題,為了簡化設計,也為了重用,於是誕生了Tika,一個專為內容分析而誕生的工具箱。 7、Nutch 3大分支版本? Nutch1.2是一個完整的搜尋引擎 Nutch1.7是一個基於HDFS的網路爬蟲 Nutch2.2.1是一個基於Gora的網路爬蟲 1.X系列可用於生產環境、2.X系列還不成熟 8、Nutch的應用領域? 站內搜尋引擎、全網搜尋引擎、垂直搜尋引擎、資料採集 9、nutch的使用? 一些具體的實踐方法及演示
講師介紹:
楊尚川,系統架構設計師,系統分析師,2013年度優秀開源專案APDPlat發起人,資深Nutch搜尋引擎專家。多年專業的軟體研發經驗,從事過管理資訊系統(MIS)開發、移動智慧終端(Win CE、Android、Java ME)開發、搜尋引擎(nutch、lucene、solr、elasticsearch)開發、大資料分析處理(Hadoop、Hbase、Pig、Hive)等工作。目前為獨立諮詢顧問,專注於大資料、搜尋引擎等相關技術,為客戶提供Nutch、Lucene、Hadoop、Solr、ElasticSearch、HBase、Pig、Hive、Gora等框架的解決方案、技術支援、技術諮詢以及培訓等服務。
時間安排: 7:00 - 7:30: 個人介紹 7:30 - 9:30 : 講課
開源力量公開課,每週二晚線上線下同時開課,讓我們一起向IT技術大牛們學習!
開源力量 | 向IT技術大牛們學習!
開源力量公開課 | 每週二晚線上線下同時開課
http://www.osforce.cn
相關文章
- Tomcat和搜尋引擎網路爬蟲的攻防Tomcat爬蟲
- 搜尋引擎Nutch 0.7.2 試用筆記筆記
- 如何使用robots禁止各大搜尋引擎爬蟲爬取網站爬蟲網站
- CDN源站遮蔽搜尋引擎爬蟲爬蟲
- Scrapy分散式爬蟲打造搜尋引擎-(八)elasticsearch結合django搭建搜尋引擎分散式爬蟲ElasticsearchDjango
- laravel 簡單限制搜尋引擎爬蟲頻率Laravel爬蟲
- 搜尋引擎爬蟲蜘蛛的User-Agent收集爬蟲
- 從0到1完成nutch分散式爬蟲專案實戰分散式爬蟲
- Web網站如何檢視搜尋引擎蜘蛛爬蟲的行為Web網站爬蟲
- 網路爬蟲---從千圖網爬取圖片到本地爬蟲
- 以圖搜尋——網際網路影象搜尋引擎的“雞肋”?
- ElasticSearch分散式搜尋引擎——從入門到精通Elasticsearch分散式
- 用開源搜尋引擎定製你的網際網路
- Flutter 網路搜尋引擎SEO優化友好Flutter優化
- 搜尋引擎-03-搜尋引擎原理
- 搜狗搜尋微信Python爬蟲案例Python爬蟲
- 《從零開始學Python網路爬蟲》概要Python爬蟲
- Python爬蟲全網搜尋並下載音樂Python爬蟲
- 網路爬蟲爬蟲
- Python爬蟲系列(六):搜尋文件樹Python爬蟲
- solr教程從入門到精通(solr5搜尋引擎)-任亮-專題視訊課程Solr
- 直播開發app,實時搜尋、搜尋引擎框APP
- 2018.2最新-搜尋引擎搭建-scrapyd部署我們的爬蟲專案爬蟲
- 網路偵察技術(一)搜尋引擎資訊收集
- 網路爬蟲開發常用框架爬蟲框架
- C#網路爬蟲開發C#爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 【爬蟲】python爬蟲從入門到放棄爬蟲Python
- 海量資料搜尋---搜尋引擎
- 乾貨分享!Python網路爬蟲實戰Python爬蟲
- 開放搜尋開源相容版,支援Elasticsearch做搜尋召回引擎Elasticsearch
- Python爬蟲 搜尋並下載圖片Python爬蟲
- 網路爬蟲精要爬蟲
- 網路爬蟲示例爬蟲
- python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)Python爬蟲
- 泛企業搜尋PK網際網路搜尋
- 開源BT磁力搜尋引擎收集
- 各大網際網路巨頭的搜尋引擎交鋒PGB