Day4--Scrapy基本使用

Sakauz發表於2019-03-24

原文網址 : https://juejin.im/post/5c97aa536fb9a070f1258711

Scrapy的基本使用

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。

他的基本專案流程為：

建立一個Scrapy專案
定義提取的Item
編寫爬取網站的spider並提取Item
編寫Item Pipeline來儲存提取到的Item(即資料)

而一般的爬蟲流程為：

抓取索引頁：請求索引頁的URL並得到原始碼，進行下一步分析；
獲取內容和下一頁連結：分析原始碼，提取索引頁資料，並且獲取下一頁連結，進行下一步抓取；
翻頁爬取：請求下一頁資訊，分析內容並請求在下一頁連結；
儲存爬取結果：將爬取結果儲存為特定格式和文字，或者儲存資料庫。

相關文章

Retrofit基本使用
2019-04-08
ADB基本使用
2018-11-23
Linux基本使用
2018-09-13
Linux
shape基本使用
2018-07-04
Jmeter基本使用
2024-05-03
JMeter
TextMeshPro - 基本使用
2024-05-01
ComplateFeature基本使用
2024-03-27
MySQL基本使用
2019-09-09
MySql
composer 基本使用
2020-08-19
Docker基本使用
2020-10-20
Docker
Ajax基本使用
2020-09-26
Markdown基本使用
2020-10-26
Thymeleaf基本使用
2024-10-24
nodejs基本使用
2024-10-08
NodeJS
git基本使用
2024-11-16
Git
OpenCV 基本使用
2024-08-09
OpenCV
反射基本使用
2018-03-27
反射
prismjs 基本使用
2024-07-21
JS
nvim 基本使用
2024-07-14
Redis基本使用
2021-07-20
Redis
QuickTestProfessional基本使用
2021-08-30
UI
springMVC基本使用
2021-01-01
SpringMVC
RabbitMQ基本使用
2021-04-09
MQ
mysqldumpslow基本使用
2021-01-25
MySql
mongoose的基本使用
2019-02-16
Go
Vagrant 的基本使用
2018-10-16
Vuex的基本使用
2019-03-03
Vue
IndexedDB（一：基本使用）
2018-12-09
Index
GoldenGate Logdump基本使用
2019-01-22
Go
JSCore的基本使用
2018-12-15
JS
nginx基本配置使用
2018-11-26
Nginx
ContentProvider的基本使用
2018-09-07
IDE
Promise的基本使用
2018-04-09
Promise
Android PopUpWindow基本使用
2018-06-26
Android
APScheduler的基本使用
2024-05-22
selenium的基本使用
2024-03-05
Laravel Collection 基本使用
2023-05-12
Laravel
drf Serializer基本使用
2020-10-24