大型商城網站爬蟲專案實戰

天上的星不說話發表於2018-01-15

本文整理自韋瑋老師的《Python大型網路爬蟲專案開發實戰》課程

一 編寫思路介紹

大型商城爬蟲專案的難點在於:

1、遮蔽資料的獲取--抓包

2、資訊提取--優先選XPath,其次正則

3、各種反爬手段--驗證碼、使用者代理、IP代理、取消cookie

4、資料的合理儲存--寫進資料庫中

5、爬取效率的問題--同時執行多個爬蟲

二、建立專案

1、網站分析,獲取爬取思路

要獲取的目標資訊:商品的標題、連結、累計評論、價格

爬取某一類商品:零食

多頁商品網址結構分析,主要是頁數標記的規律,總結出的頁數公式:(n-1)*44

比如最簡化後第2頁網址:https://s.taobao.com/search?q=%E9%9B%B6%E9%A3%9F&s=44

2、實戰

待續

相關文章