常見python爬蟲框架

三名狂客發表於2017-07-21
一、python爬蟲框架

   一些爬蟲專案的半成品

二、常見python爬蟲框架

  (1)Scrapy:很強大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。但是對於稍微複雜一點的頁面,如weibo的頁面資訊,這個框架就滿足不了需求了。


  (2)Crawley: 高速爬取對應網站的內容,支援關係和非關聯式資料庫,資料可以匯出為JSON、XML等


  (3)Portia:視覺化爬取網頁內容


  (4)newspaper:提取新聞、文章以及內容分析


  (5)python-goose:java寫的文章提取工具


  (6)Beautiful Soup:名氣大,整合了一些常用爬蟲需求。缺點:不能載入JS。


  (7)mechanize:優點:可以載入JS。缺點:文件嚴重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。


  (8)selenium:這是一個呼叫瀏覽器的driver,通過這個庫你可以直接呼叫瀏覽器完成某些操作,比如輸入驗證碼。


  (9)cola:一個分散式爬蟲框架。專案整體設計有點糟,模組間耦合度較高。

相關文章