Scrapy的基本使用
Scrapy是一個為了爬取網站資料,提取結構性資料而編寫的應用框架。 可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。
- 他的基本專案流程為:
- 建立一個Scrapy專案
- 定義提取的Item
- 編寫爬取網站的spider並提取Item
- 編寫Item Pipeline來儲存提取到的Item(即資料)
而一般的爬蟲流程為:
- 抓取索引頁:請求索引頁的URL並得到原始碼,進行下一步分析;
- 獲取內容和下一頁連結:分析原始碼,提取索引頁資料,並且獲取下一頁連結,進行下一步抓取;
- 翻頁爬取:請求下一頁資訊,分析內容並請求在下一頁連結;
- 儲存爬取結果:將爬取結果儲存為特定格式和文字,或者儲存資料庫。