python爬蟲一般用什麼框架?六大Python框架

老男孩IT教育機構發表於2020-08-14

  python爬蟲一般用什麼框架?python爬蟲可以使用的框架有很多,一般在大型需求的時候才會使用python爬蟲框架。

  Scrapy:一個為了爬取網站資料,提取結構性資料而編寫的應用框架。應用在資料探勘、資訊處理或者儲存歷史資料等一系列程式中。是很強大的爬蟲框架,可以滿足簡單的頁面爬取。

  Crawley:高速爬取對應網站內容,支援關係和非關聯式資料庫,資料可以匯出為JSON、XML等。

  Portia:開源視覺化爬蟲工具,使用者在不需要任何程式設計知識的情況下爬取網站,簡單的註釋自己感興趣的頁面,建立一個蜘蛛來從類似的頁面提取資料。

  newspaper:可以用來提取新聞、文章和內容分析。使用多執行緒、支援10多種語言。

  python-goose:可以提取的資訊包含文章主體內容、文章主要圖片、文章中嵌入的任何Youtube/Vimeo影片、元描述、元標籤。

  Beautiful Soup:名氣很大,整合了一些常用的爬蟲需求。可以從HTML或XML檔案中提取資料的Python庫。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2711724/,如需轉載,請註明出處,否則將追究法律責任。

相關文章