Day4--Scrapy基本使用

Sakauz發表於2019-03-24

Scrapy的基本使用

Scrapy是一個為了爬取網站資料,提取結構性資料而編寫的應用框架。 可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。

  • 他的基本專案流程為:
  1. 建立一個Scrapy專案
  2. 定義提取的Item
  3. 編寫爬取網站的spider並提取Item
  4. 編寫Item Pipeline來儲存提取到的Item(即資料)

而一般的爬蟲流程為:

  1. 抓取索引頁:請求索引頁的URL並得到原始碼,進行下一步分析;
  2. 獲取內容和下一頁連結:分析原始碼,提取索引頁資料,並且獲取下一頁連結,進行下一步抓取;
  3. 翻頁爬取:請求下一頁資訊,分析內容並請求在下一頁連結;
  4. 儲存爬取結果:將爬取結果儲存為特定格式和文字,或者儲存資料庫。