網路爬蟲專案開發日誌(一):關於爬蟲專案所涉及的領域知識
最近,公司剛剛開啟了網路爬蟲專案,對於這一陌生領域,我是好奇又惶恐,為了記錄爬蟲專案開發過程中的點滴,特立此係列微薄。
專案已經開啟2個月,經過2個月的摸爬滾打,初步總結出了爬蟲所涉及的知識領域,
1、爬蟲機制
我們專案大致把爬蟲的整個過程做到模組化劃分,採用的是開源的webmajic框架,先從負責爬取網頁的downloader,到解析網頁的processer,到持久化的pipeline
2、downloader
a:selenium自動化測試
b:http協議知識
c: URL 佇列排序策略--》深度優先、廣度優先
d:分散式佇列如何實現和管理
e:反爬機制的破解
f:OCR圖片識別,用來破解校驗碼
3、processer
a:xpath常用語法
b:Ansj語義解析工具的使用
c:Regular expression
5、pipeline
a:我們的pipeline呼叫DAL層,用到Mybatis的ORM框架
b:鑑於資料量巨大,我們採用shardbatis來做分表路由
6、大資料分析
a:輿情分析,情感分析
技能樹獻上
下一篇會開始講解爬蟲架構的設計。
相關文章
- 網路爬蟲專案開發日誌(三):爬蟲上線準備爬蟲
- 網路爬蟲專案爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- 專案--python網路爬蟲Python爬蟲
- 網路爬蟲(python專案)爬蟲Python
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- 爬蟲專案爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- 爬蟲小專案爬蟲
- 爬蟲專案部署爬蟲
- python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結Python爬蟲
- 爬蟲專案實戰(一)爬蟲
- Python開發爬蟲專案+程式碼Python爬蟲
- Python網路爬蟲實戰小專案Python爬蟲
- Python網路爬蟲實戰專案大全!Python爬蟲
- 從零開始的爬蟲專案(一)爬蟲
- 爬蟲專案:大麥網分析爬蟲
- 爬蟲專案總結爬蟲
- 奇伢爬蟲專案爬蟲
- scrapyd 部署爬蟲專案爬蟲
- 爬蟲的例項專案爬蟲
- Python爬蟲開源專案合集Python爬蟲
- 關於一些爬蟲專案教程的整理(轉載)爬蟲
- 2019最新《網路爬蟲JAVA專案實戰》爬蟲Java
- Python爬蟲小專案:爬一個圖書網站Python爬蟲網站
- 不踩坑的Python爬蟲:Python爬蟲開發與專案實戰,從爬蟲入門 PythonPython爬蟲
- Java 爬蟲專案實戰之爬蟲簡介Java爬蟲
- python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案?Python爬蟲Github
- 爬蟲實戰專案合集爬蟲
- 爬蟲實戰專案集合爬蟲
- 100爬蟲專案遷移爬蟲
- gerapy框架爬蟲專案部署框架爬蟲
- 課程設計:python_網路爬蟲專案Python爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- Python爬蟲開發與專案實戰pdfPython爬蟲
- Python爬蟲開發與專案實戰(2)Python爬蟲
- Python爬蟲開發與專案實踐(3)Python爬蟲
- Python爬蟲開發與專案實戰(1)Python爬蟲