Python scrapy基礎教程（一）

HuangZhang_123發表於2017-04-11

歡迎加入學習交流QQ群：657341423

scrapy作為一個爬蟲框架，其功能是足夠強大的。
這一框架就像一條爬蟲流水線，有工作佇列、有下載器、有分配任務的引擎，有對爬取資料寫邏輯的地方、也有寫儲存處理資料的資料庫SQL的地方。對於scrapy而言，更多的時候是在配置scrapy。先要繼承一個spider寫爬蟲的主體，然後還要在setting裡寫配置，在pipeline裡寫資料庫。而且還要注意在主函式parse裡的返回值，返回item時是交給pipline做資料處理，返回Request回撥函式時是向爬取佇列註冊二級連結等等。這樣看scrapy使用時比requests要繁瑣很多，後者只需要呼叫一下requests類，然後配置一下成員變數就可以使用，但獲取到html後其他的事情就都得你自己處理，自己寫的程式碼還不是最好的。而scrapy在配置好後就可以很順暢的跑起來，還會自動處理很多東西，而且往往效率比自己造的輪子效率高。所以如果是寫個小爬蟲，用request就可以了，如果程式碼量級稍大一點，不想費心管理了，就可以用scrapy，當然也可以自己造輪子

直接上教程:
python 3.5，Windows7環境下
這是爬取百度知道的問題列表題目，然後寫入txt中。
這裡寫圖片描述

新建專案：

scrapy startproject textsc

然後在spider資料夾下新建BaiSpider.py檔案
這裡寫圖片描述
下面來簡單介紹一下各個檔案的作用：
scrapy.cfg：專案的配置檔案
textsc/：專案的Python模組，將會從這裡引用程式碼
textsc/items.py：專案的items檔案（用於爬取資料定義和例項化）
textsc/pipelines.py：專案的pipelines檔案，主要用於存寫資料（寫入資料庫等）
textsc/settings.py：專案的設定檔案
textsc/spiders/：儲存爬蟲的目錄（爬蟲的內容，如何爬蟲，取那些資料等）

1.items.py
這裡寫圖片描述
其中紅色部分需要注意，TextscItem類名用於匯入spiders中引用
TitleName = scrapy.Field()自定義資料

2.BaiSpider.py
這裡寫圖片描述
start_urls：可以設定多個url連結
from textsc.items import TextscItem：匯入items.py裡面的TextscItem類
item=TextscItem()：例項化
item[‘TitleName’] = items：賦值
yield item：這個關鍵，如果沒有這個，item不會傳遞到pipelines.py裡。用return item也行

3.pipelines.py
這裡寫圖片描述
註釋“Don’t……’”需要自行設定settings.py檔案
第二個紅色框為自行編寫的程式碼。open模式為a，這樣可以連續寫入兩個url的資料，如果用w，只能寫入最後一個url的資料。

4.settings.py
這裡寫圖片描述

執行結果：
這裡寫圖片描述

程式碼下載

Python scrapy基礎教程（三）
2017-04-12
Python
Python scrapy基礎教程（二）
2017-04-11
Python
scrapy和scrapy-redis有什麼區別?Python基礎教程
2021-08-18
RedisPython
scrapy 基礎
2024-07-05
python 基礎之scrapy 原理練習
2024-07-16
Python
Python基礎教程
2020-12-26
Python
Python Django基礎教程（一）（入門）
2017-04-17
PythonDjango
Python爬蟲之Scrapy學習（基礎篇）
2019-03-04
Python爬蟲
python 教程_【python 基礎教程詳解】
2013-08-10
Python
一、Python複習教程（重點）- 基礎
2020-10-26
Python
python基礎教程|菜鳥教程
2020-11-03
Python
Python Numpy基礎教程
2019-06-16
Python
Python基礎面試題30問!Python基礎教程
2021-08-12
Python面試題
Python教程系列（一）—— Python基礎教程之第一個程式設計練習
2019-01-07
Python程式設計
python-基礎教程-pprint
2018-12-09
Python
【莫煩】python基礎教程
2018-10-28
Python
Python 基礎知識教程
2017-03-31
Python
Scrapy基礎（二）：使用詳解
2018-12-12
Gurobi基礎教程（Python版）-系列教程2
2020-09-26
Python
Kotlin教程（一）基礎
2018-03-20
Kotlin
Kotlin基礎教程(一)
2018-06-07
Kotlin
Python Flask基礎教程（入門）
2017-07-15
PythonFlask
Python基礎教程01 Hello World!
2014-04-18
Python
Python基礎教程03 - 序列（sequence）
2014-04-24
Python
Python基礎教程06 - 迴圈
2014-05-08
Python
Python基礎教程07 - 函式
2014-05-09
Python函式
Python基礎教程04 運算
2014-05-04
Python
《Python基礎教程》小小有感
2015-12-02
Python
Python基礎教程.18214570
2024-05-26
Python
Scrapy 教程
2017-05-27
python基礎教程（2）python的一些基本概念
2017-11-17
Python
python基礎(一)
2021-09-09
Python
Python基礎一
2018-04-27
Python
python程式設計基礎教程第一季
2020-04-04
Python程式設計
Python 快速教程（基礎篇02）：基礎資料型別
2015-10-22
Python資料型別
（Python基礎教程之七）Python字串操作
2021-09-09
Python字串
Python基礎教程該如何學習?
2020-01-14
Python
1、python機器學習基礎教程——簡述
2019-01-04
Python機器學習

Python scrapy基礎教程（一）

相關文章