Python爬蟲一般會用到什麼框架?常見框架推薦!

老男孩IT教育機構發表於2021-06-22

  大家都知道,python是一門非常受歡迎的程式語言,之所以受歡迎不僅僅只是簡單易學,更大一部分原因跟python框架有關係,那麼你知道python爬蟲一般會用到什麼框架嗎?

  1、Scrapy是一個為了爬取網站資料,提取結構性資料而編寫的應用框架。 可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。它是很強大的爬蟲框架,可以滿足簡單的頁面爬取,比如可以明確獲知url pattern的情況。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。但是對於稍微複雜一點的頁面,如weibo的頁面資訊,這個框架就滿足不了需求。

  2、pyspider 是一個用python實現的功能強大的網路爬蟲系統,能在瀏覽器介面上進行指令碼的編寫,功能的排程和爬取結果的實時檢視,後端使用常用的資料庫進行爬取結果的儲存,還能定時設定任務與任務優先順序等。

  3、Crawley可以高速爬取對應網站的內容,支援關係和非關聯式資料庫,資料可以匯出為JSON、XML等。

  4、Portia是一個開源視覺化爬蟲工具,可讓使用者在不需要任何程式設計知識的情況下爬取網站!簡單地註釋自己感興趣的頁面,Portia將建立一個蜘蛛來從類似的頁面提取資料。簡單來講,它是基於scrapy核心;視覺化爬取內容,不需要任何開發專業知識;動態匹配相同模板的內容。

  5、Grab是一個用於構建Web刮板的Python框架。藉助Grab,您可以構建各種複雜的網頁抓取工具,從簡單的5行指令碼到處理數百萬個網頁的複雜非同步網站抓取工具。Grab提供一個API用於執行網路請求和處理接收到的內容,例如與HTML文件的DOM樹進行互動。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2777814/,如需轉載,請註明出處,否則將追究法律責任。

相關文章