Python爬蟲一般會用什麼框架?常見的五種框架介紹!

老男孩IT教育機構發表於2019-12-04

  Python爬蟲一般會用到什麼框架?哪個框架好?Python的發展讓大家對它更加了解了,而且對於大型的企業來說,Python框架是非常重要的,那麼Python爬蟲框架有哪些?介紹為大家介紹五種常用的型別。

  1、Scrapy:Scrapy是一個為了爬取網站資料,提取結構性資料而編寫的應用框架。 可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。它是很強大的爬蟲框架,可以滿足簡單的頁面爬取,比如可以明確獲知url pattern的情況。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。但是對於稍微複雜一點的頁面,如weibo的頁面資訊,這個框架就滿足不了需求了。它的特性有:HTML, XML源資料 選擇及提取 的內建支援;提供了一系列在spider之間共享的可複用的過濾器(即 Item Loaders),對智慧處理爬取資料提供了內建支援。

  2、PySpider:pyspider 是一個用python實現的功能強大的網路爬蟲系統,能在瀏覽器介面上進行指令碼的編寫,功能的排程和爬取結果的實時檢視,後端使用常用的資料庫進行爬取結果的儲存,還能定時設定任務與任務優先順序等。

  3、Crawley:Crawley可以高速爬取對應網站的內容,支援關係和非關聯式資料庫,資料可以匯出為JSON、XML等。

  4、Portia:是一個開源視覺化爬蟲工具,可讓使用者在不需要任何程式設計知識的情況下爬取網站!簡單地註釋自己感興趣的頁面,Portia將建立一個蜘蛛來從類似的頁面提取資料。簡單來講,它是基於scrapy核心;視覺化爬取內容,不需要任何開發專業知識;動態匹配相同模板的內容。

  5、Grab:Grab是一個用於構建Web刮板的Python框架。藉助Grab,您可以構建各種複雜的網頁抓取工具,從簡單的5行指令碼到處理數百萬個網頁的複雜非同步網站抓取工具。Grab提供一個API用於執行網路請求和處理接收到的內容,例如與HTML文件的DOM樹進行互動。

  以上就是五種常見的Python爬蟲主流框架介紹了,這五種框架各有千秋,大家可以根據自身的需求來決定實用場景。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2666906/,如需轉載,請註明出處,否則將追究法律責任。

相關文章