好程式設計師Python培訓分享Python爬蟲相關框架

好程式設計師發表於2020-07-28

   好程式設計師Python 培訓分享 Python 爬蟲相關框架 Python 的爬蟲框架就是一些爬蟲專案的半成品。比如我們可以將一些常見爬蟲功能的實現程式碼寫好,然後留下一些介面,在做不同的爬蟲專案時,我們只需要根據實際情況,只需要寫少量需要變動的程式碼部分,並按照需要呼叫這些介面,即可以實現一個爬蟲專案。常見框架:

   1.Scrapy 框架是一套比較成熟的 Python 爬蟲框架,是使用 Python 開發的快速、高層次的資訊爬取框架,可以高效的爬取 web 頁面並提取出結構化資料。

   2.Crawley 框架也是 Python 開發出的爬蟲框架,該框架致力於改變人們從網際網路中提取資料的方式。

   3.Portia 框架是一款允許沒有任何程式設計基礎的使用者視覺化地爬取網頁的爬蟲框架。

   4.newspaper 框架是一個用來提取新聞、文章以及內容分析的 Python 爬蟲框架。

   5.Python-goose 框架可提取的資訊包括:文章主體內容、文章主要圖片、文章中嵌入的任何 Youtube/Vimeo 影片、元描述、元標籤。在 Python 中,開源爬蟲框架很多,我們自己也可以寫一些。我們並不需要掌握每一種爬蟲框架,只需要深入掌握一種即可。大部分爬蟲框架實現方式都是大同小異,建議學習最流行的 Python 爬蟲框架—— Scrapy

   Scrapy 是一個為了爬取網站資料,提取結構性資料而編寫的應用框架。其可以應用在資料探勘,資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取(更確切來說 , 網路抓取 )所設計的,也可以應用在獲取 API 所返回的資料(例如 Amazon Associates Web Services )或者通用的網路爬蟲。 Scrapy 用途廣泛,可以用於資料探勘、監測和自動化測試。

   Scrapy 主要包括了以下元件:

   1. 引擎( Scrapy

   2. 排程器( Scheduler

   3. 下載器( Downloader

   4. 爬蟲( Spiders

   5. 專案管道( Pipeline

   6. 下載器中介軟體( Downloader Middlewares

   7. 爬蟲中介軟體( Spider Middlewares

   8. 排程中介軟體( Scheduler Middewares

   Scrapy 執行流程大概如下:

   1. 引擎從排程器中取出一個連結( URL )用於接下來的抓取

   2. 引擎把 URL 封裝成一個請求( Request )傳給下載器

   3. 下載器把資源下載下來,並封裝成應答包( Response

   4. 爬蟲解析 Response

   5. 解析出實體( Item , 則交給實體管道進行進一步的處理

   6. 解析出的是連結( URL , 則把 URL 交給排程器等待抓取

   以上就是我們常見的Python 爬蟲框架及簡單介紹,當自己寫爬蟲時可根據不同需求應用不同的框架。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2707475/,如需轉載,請註明出處,否則將追究法律責任。

相關文章