大家都知道，python是一門非常受歡迎的程式語言，之所以受歡迎不僅僅只是簡單易學，更大一部分原因跟python框架有關係，那麼你知道python爬蟲一般會用到什麼框架嗎?

　　1、Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。它是很強大的爬蟲框架，可以滿足簡單的頁面爬取，比如可以明確獲知url pattern的情況。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。但是對於稍微複雜一點的頁面，如weibo的頁面資訊，這個框架就滿足不了需求。

　　2、pyspider 是一個用python實現的功能強大的網路爬蟲系統，能在瀏覽器介面上進行指令碼的編寫，功能的排程和爬取結果的實時檢視，後端使用常用的資料庫進行爬取結果的儲存，還能定時設定任務與任務優先順序等。

　　3、Crawley可以高速爬取對應網站的內容，支援關係和非關聯式資料庫，資料可以匯出為JSON、XML等。

　　4、Portia是一個開源視覺化爬蟲工具，可讓使用者在不需要任何程式設計知識的情況下爬取網站!簡單地註釋自己感興趣的頁面，Portia將建立一個蜘蛛來從類似的頁面提取資料。簡單來講，它是基於scrapy核心;視覺化爬取內容，不需要任何開發專業知識;動態匹配相同模板的內容。

　　5、Grab是一個用於構建Web刮板的Python框架。藉助Grab，您可以構建各種複雜的網頁抓取工具，從簡單的5行指令碼到處理數百萬個網頁的複雜非同步網站抓取工具。Grab提供一個API用於執行網路請求和處理接收到的內容，例如與HTML文件的DOM樹進行互動。

Python爬蟲一般會用到什麼框架?常見框架推薦！

相關文章