網路爬蟲專案開發日誌(一):關於爬蟲專案所涉及的領域知識

qq_33134761發表於2016-07-14

最近,公司剛剛開啟了網路爬蟲專案,對於這一陌生領域,我是好奇又惶恐,為了記錄爬蟲專案開發過程中的點滴,特立此係列微薄。


專案已經開啟2個月,經過2個月的摸爬滾打,初步總結出了爬蟲所涉及的知識領域,

1、爬蟲機制

     我們專案大致把爬蟲的整個過程做到模組化劃分,採用的是開源的webmajic框架,先從負責爬取網頁的downloader,到解析網頁的processer,到持久化的pipeline

2、downloader

      a:selenium自動化測試

      b:http協議知識

      c:   URL 佇列排序策略--》深度優先、廣度優先

      d:分散式佇列如何實現和管理

      e:反爬機制的破解

      f:OCR圖片識別,用來破解校驗碼

3、processer

      a:xpath常用語法

      b:Ansj語義解析工具的使用

      c:Regular expression

5、pipeline

      a:我們的pipeline呼叫DAL層,用到Mybatis的ORM框架

      b:鑑於資料量巨大,我們採用shardbatis來做分表路由

6、大資料分析

      a:輿情分析,情感分析


技能樹獻上



下一篇會開始講解爬蟲架構的設計。





相關文章