scrapy 爬電影抓取資料

Ethan'Cui發表於2017-12-19

前段時間學python學完了基礎的知識當然是要來點實際的東西玩玩了。爬蟲，這個對於python再適合不過，今天就先來爬一個電影網站，下一篇我們來爬美女圖片，這篇就做為一個爬蟲基礎練練手。將他有的資源資訊爬下來儲存成一個csv檔案。

序

環境 mac python3.6.1 pycharm

Step1

預設scrapy的環境是安裝好的。我們在終端裡輸入scrapy startproject 工程名新建一個爬蟲專案，scrapy會為我們初始化一個基本結構如下圖：

其中Id97Index.py是我們編寫邏輯的檔案，也是我們自己建的。除此之外都會在新建專案時生成。

Step2

在items.py中建立我們的實體類：

分別為“封面”、“電影名”、“評分”、“型別” 該實體類會在後面提交資料時scrapy進行寫入需要用到的，總之呢。你需要存什麼資料就寫對應欄位，後面儲存檔案後你就明白了

Step3

現在可以開始寫我們爬蟲的邏輯了如Step1我們在spiders資料夾下新建一個Index97Index.py再新建類Id97Movie繼承CrawlSpider如下：

其中name為我們啟動專案的名字 host主要為後面做一些拼接 allowed_domains主域名 start_urls需要請求爬的初始urls

從原始碼可以看到name和start_urls是必要的引數，並且一開始的請求是迴圈start_urls，所以一定不能忘記，名字也不能定義。

Step4

覆寫parse方法

根據chrome中檢視到每個item內容都在紅框中這個標籤內，我們可以右鍵選擇copy xpath(xpath知識可以google兩分鐘就會)進行xpath選取
獲取下一頁url，同樣找到下一頁的xpath。這裡我是把最下面的"上一頁，下一頁頁碼"都拿來。因為下一頁這個標籤總在倒數第二個就可以使用pages[-2]獲取下一頁的url
for迴圈處理每個列表列的內容使用parse_item方法處理
最後yield Request(nextPageUrl, callback=self.parse)再次請求下一頁的內容，依然使用parse方法處理這樣迴圈直到最後一頁 parse_item程式碼：

Step5

設定settings.py我們需要一個存放路徑及格式

Step6

到該專案的目錄下在終端執行scrapy crawl name(step3中所說的name='id97')，也可將命令直接放在python檔案中進行執行

至此這個爬蟲就基本結束了。settings.py中還有一些優化配置網上還是比較多的。可以自行配置試試看原始碼：原始碼地址

相關文章

scrapy爬取豆瓣電影資料
2021-09-11
使用Scrapy抓取優酷視訊列表頁（電影/電視）
2019-02-16
Python爬蟲入門教程 33-100 《海王》評論資料抓取 scrapy
2019-02-14
Python爬蟲
scrapy入門：豆瓣電影top250爬取
2019-02-16
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Python爬蟲入門實戰之貓眼電影資料抓取(理論篇)
2019-04-06
Python爬蟲
Python爬蟲入門實戰之貓眼電影資料抓取（實戰篇）
2019-04-07
Python爬蟲
Scrapy爬蟲：實習僧網最新招聘資訊抓取
2021-09-09
爬蟲
爬蟲原理與資料抓取
2020-12-17
爬蟲
Python抓取VIP電影
2019-01-22
Python
爬蟲如何爬取貓眼電影TOP榜資料
2019-06-17
爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
業務資料抓取的影響
2022-01-17
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
如何提升scrapy爬取資料的效率
2019-03-05
Selenium + Scrapy爬取某商標資料
2018-06-27
python更換代理爬取豆瓣電影資料
2019-08-03
Python
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
使用scrapy抓取Youtube播放列表資訊
2019-02-16
Python爬蟲入門教程 16-100 500px攝影師社群抓取攝影師資料
2018-12-25
Python爬蟲
批量抓取豆瓣電影圖片
2021-11-15
爬取豆瓣電影Top250和資料分析
2022-06-20
如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料
2019-05-15
PHP爬蟲亞馬遜
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
[知識圖譜實戰篇] 一.資料抓取之Python3抓取JSON格式的電影實體
2019-01-31
PythonJSON
使用Scrapy抓取新浪微博使用者資訊
2019-02-16
【Python爬蟲&資料分析】2018年電影，你看了幾部？
2018-12-06
Python爬蟲
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
Python乾貨：用Scrapy爬電商網站
2018-09-04
Python網站
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
讓爬蟲無障礙抓取上千萬APP資料
2019-05-16
爬蟲APP
爬蟲app資訊抓取之apk反編譯抓取
2019-05-10
爬蟲APPAPK編譯
【Python3網路爬蟲開發實戰】3.4-抓取貓眼電影排行
2019-07-04
Python爬蟲
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
python爬蟲之 scrapy框架採集2000期彩票資料
2020-12-02
Python爬蟲框架
電商API介面：京東按關鍵字搜尋商品批次抓取資料爬蟲
2023-02-23
API爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲