scrapy入門

文藝的男青年發表於2018-12-13

原文網址 : https://flycode.co/archives/232883

什麼是scrapy？

scrapy是一個為了爬去網站資料，提取結構性資料而編寫的應用框架，我們只需要實現少量的程式碼，就能夠快速的抓取

scrapy使用了 Twisted 非同步網路框架，可以加快我們的下載速度

非同步和非阻塞的區別

非同步：呼叫在釋出之後，這個呼叫就直接返回，不管有無結果
非阻塞：關注的是程式在等待呼叫結果（訊息，返回值）時的狀態，指在不能立刻得到結果之前，該呼叫不會阻塞當前執行緒

安裝scrapy

直接安裝可能會報錯

第一步下載Twisted
- 點選 https://www.lfd.uci.edu/~gohlke/pythonlibs/
- 搜尋 Twisted 選擇與你的python版本相對應的版本
- 檢視python版本命令 python -V或著python -version
第二步安裝Twisted
- 進入到剛剛下載的Twisted所在的目錄，執行 pip install Twisted‑18.9.0‑cp36‑cp36m‑win_amd64.whl(剛剛下載的檔案)
第三部安裝scrapy
- pip install scrapy

scrapy專案流程

建立專案
- scrapy startproject 專案名
- 如：scrapy startproject Myspider
建立爬蟲
- cd 專案名
- 如：cd Myspider
- scrapy genspider <爬蟲名字> <限制訪問的網站(allowed_domains)>
- 如：scrapy genspider itcast itcast.cn
啟動爬蟲
- scrapy crawl 爬蟲名
- 如：scrapy crawl itcast
完善spider
完善管道

完善spider

parse方法必須有，用來處理start_urls對應的響應
extract() response.xpath()從中提取資料的方法，沒有就返回一個空列表

資料提取url地址補全

1.手動字串相加
2.urllib.parse.urljoin(baseurl.url)
- 後面的url會根據baseurl進行url地址的拼接
3.response.follow(url, callback)
- 能夠根據response的地址把url拼接完整，構造成request物件

scrapy構造請求

scrapy.Request(url, callback, meta, dont_filter=False)
- callback:url地址的響應的處理函式
- meta：實現在不同的解析函式中傳遞資料
- dont_filter:預設是Faslse表示過濾，scrapy請求過的url地址，在當前的執行程式中
  —恢復內容結束—
  
  ### 什麼是scrapy？
  scrapy是一個為了爬去網站資料，提取結構性資料而編寫的應用框架，我們只需要實現少量的程式碼，就能夠快速的抓取

scrapy使用了 Twisted 非同步網路框架，可以加快我們的下載速度

非同步和非阻塞的區別

安裝scrapy

直接安裝可能會報錯

第一步下載Twisted
- 點選 https://www.lfd.uci.edu/~gohlke/pythonlibs/
- 搜尋 Twisted 選擇與你的python版本相對應的版本
- 檢視python版本命令 python -V或著python -version
第二步安裝Twisted
- 進入到剛剛下載的Twisted所在的目錄，執行 pip install Twisted‑18.9.0‑cp36‑cp36m‑win_amd64.whl(剛剛下載的檔案)
第三部安裝scrapy
- pip install scrapy

scrapy專案流程

建立專案
- scrapy startproject 專案名
- 如：scrapy startproject Myspider
建立爬蟲
- cd 專案名
- 如：cd Myspider
- scrapy genspider <爬蟲名字> <限制訪問的網站(allowed_domains)>
- 如：scrapy genspider itcast itcast.cn
啟動爬蟲
- scrapy crawl 爬蟲名
- 如：scrapy crawl itcast
完善spider
完善管道

完善spider

parse方法必須有，用來處理start_urls對應的響應
extract() response.xpath()從中提取資料的方法，沒有就返回一個空列表

資料提取url地址補全

1.手動字串相加
2.urllib.parse.urljoin(baseurl.url)
- 後面的url會根據baseurl進行url地址的拼接
3.response.follow(url, callback)
- 能夠根據response的地址把url拼接完整，構造成request物件

scrapy構造請求

scrapy.Request(url, callback, meta, dont_filter=False)
- callback:url地址的響應的處理函式
- meta：實現在不同的解析函式中傳遞資料
- dont_filter:預設是Faslse表示過濾，表示請求過的url地址，不會被再次請求

Scrapy框架的使用之Scrapy入門
2018-05-02
框架
追書神器（一）—Scrapy入門
2019-03-04
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
Scrapy入門-第一個爬蟲專案
2018-07-23
爬蟲
scrapy入門：豆瓣電影top250爬取
2019-02-16
python爬蟲利器 scrapy和scrapy-redis 詳解一入門demo及內容解析
2020-10-29
Python爬蟲Redis
手把手教你寫網路爬蟲（4）：Scrapy入門
2018-05-05
爬蟲
如何匯入Scrapy框架
2023-11-23
框架
Scrapy八小時快速入門第一小時:安裝,建立與執行我們的Scrapy
2021-09-09
python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））
2020-04-30
Python爬蟲筆記
Python爬蟲入門教程 33-100 《海王》評論資料抓取 scrapy
2019-02-14
Python爬蟲
windows安裝Anaconda3，Anaconda3安裝scrapy抓取鏈家資料入門例子
2018-12-12
Windows
入門入門入門 MySQL命名行
2020-12-15
MySql
Python爬蟲入門教程 40-100 部落格園Python相關40W部落格抓取 scrapy
2019-02-25
Python爬蟲
何入CTF的“門”？——所謂入門就是入門
2020-11-04
如何入CTF的“門”？——所謂入門就是入門
2020-12-21
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
scala 從入門到入門+
2019-02-16
makefile從入門到入門
2020-10-06
gRPC（二）入門：Protobuf入門
2022-11-09
RPC
scrapy（2）
2024-05-22
scrapy使用
2024-04-12
初始scrapy
2024-04-04
Scrapy框架
2023-03-29
框架
使用Scrapy爬取圖片入庫,並儲存在本地
2019-06-27
Scrapy框架的使用之Scrapy框架介紹
2018-05-02
框架
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Scrapy框架的使用之Scrapy對接Splash
2018-05-18
框架
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
【小入門】react極簡入門
2019-07-22
React
Android入門教程 | RecyclerView使用入門
2021-11-07
AndroidView
使用scrapy框架把資料非同步寫入資料庫
2018-07-16
框架非同步資料庫
新手入門，webpack入門詳細教程
2018-11-15
Web
Android入門教程 | Kotlin協程入門
2021-12-06
AndroidKotlin
《Flutter 入門經典》之“Flutter 入門 ”
2021-02-02
Flutter
Scrapy框架-Spider
2019-02-15
框架IDE

scrapy入門

什麼是scrapy？

非同步和非阻塞的區別

安裝scrapy

scrapy專案流程

完善spider

資料提取url地址補全

scrapy構造請求

非同步和非阻塞的區別

安裝scrapy

scrapy專案流程

完善spider

資料提取url地址補全

scrapy構造請求

相關文章