python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））

還算小萌新？發表於2020-04-30

原文網址 : https://blog.csdn.net/zyzy123321/article/details/105842455

Python爬蟲筆記

python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））

入門案例

學習目標

建立一個Scrapy專案
定義提取的結構化資料(Item)
編寫爬取網站的 Spider 並提取出結構化資料(Item)
編寫 Item Pipelines 來儲存提取到的Item(即結構化資料)

一. 新建專案(scrapy startproject)

在開始爬取之前，必須建立一個新的Scrapy專案。進入自定義的專案目錄中，執行下列命令：

scrapy startproject mySpider

其中， mySpider 為專案名稱，可以看到將會建立一個 mySpider 資料夾，目錄結構大致如下：

在這裡插入圖片描述
下面來簡單介紹一下各個主要檔案的作用：
scrapy.cfg ：專案的配置檔案

mySpider/ ：專案的Python模組，將會從這裡引用程式碼

mySpider/items.py ：專案的目標檔案

mySpider/pipelines.py ：專案的管道檔案

mySpider/settings.py ：專案的設定檔案

mySpider/spiders/ ：儲存爬蟲程式碼目錄

二、明確目標(mySpider/items.py)

我們打算抓取：http://www.itcast.cn/channel/teacher.shtml 網站裡的所有講師的姓名、職稱和個人資訊。

開啟mySpider目錄下的items.py
Item 定義結構化資料欄位，用來儲存爬取到的資料，有點像Python中的dict，但是提供了一些額外的保護減少錯誤。
可以通過建立一個 scrapy.Item 類，並且定義型別為 scrapy.Field的類屬性來定義一個Item。
接下來，建立一個ItcastItem 類，和構建item模型（model）。

import scrapy

class ItcastItem(scrapy.Item):
    name = scrapy.Field()
    level = scrapy.Field()
    info = scrapy.Field()

pycharm中建立scrapy

在pycharm中的Terminal鍵入命令列

scrapy startproject mySpider

在這裡插入圖片描述

cd test_scrapy

scrapy genspider itcast itcast.cn

在這裡插入圖片描述

啟動爬蟲

scrapy crawl itcast

三、製作爬蟲（spiders/itcastSpider.py）

爬蟲功能要分兩步：

1. 爬資料

在當前目錄下輸入命令，將在mySpider/spider目錄下建立一個名為itcast的爬蟲，並指定爬取域的範圍：

scrapy genspider itcast "itcast.cn"

開啟 mySpider/spider目錄裡的 itcast.py，預設增加了下列程式碼:

import scrapy

class ItcastSpider(scrapy.Spider):
    name = "itcast"
    allowed_domains = ["itcast.cn"]
    start_urls = (
        'http://www.itcast.cn/',
    )

    def parse(self, response):
        pass

其實也可以由我們自行建立itcast.py並編寫上面的程式碼，只不過使用命令可以免去編寫固定程式碼的麻煩
要建立一個Spider，你必須用scrapy.Spider類建立一個子類，並確定了三個強制的屬性和一個方法。

name = “” ：這個爬蟲的識別名稱，必須是唯一的，在不同的爬蟲必須定義不同的名字。
allow_domains = [] 是搜尋的域名範圍，也就是爬蟲的約束區域，規定爬蟲只爬取這個域名下的網頁，不存在的URL會被忽略。
start_urls = () ：爬取的URL元祖/列表。爬蟲從這裡開始抓取資料，所以，第一次下載的資料將會從這些urls開始。其他子URL將會從這些起始URL中繼承性生成。
parse(self, response) ：解析的方法，每個初始URL完成下載後將被呼叫，呼叫的時候傳入從每一個URL傳回的Response物件來作為唯一引數，主要作用如下：
```
  1.負責解析返回的網頁資料(response.body)，提取結構化資料(生成item)
  2.生成需要下一頁的URL請求。
```

將start_urls的值修改為需要爬取的第一個url

start_urls = ("http://www.itcast.cn/channel/teacher.shtml",)

修改parse()方法

def parse(self, response):
    with open("teacher.html", "w") as f:
        f.write(response.text)

然後執行一下看看，在mySpider目錄下執行：

scrapy crawl itcast

是的，就是 itcast，看上面程式碼，它是 ItcastSpider 類的 name 屬性，也就是使用 scrapy genspider命令的爬蟲名。

一個Scrapy爬蟲專案裡，可以存在多個爬蟲。各個爬蟲在執行時，就是按照 name 屬性來區分。

執行之後，如果列印的日誌出現 [scrapy] INFO: Spider closed (finished)，代表執行完成。之後當前資料夾中就出現了一個 teacher.html 檔案，裡面就是我們剛剛要爬取的網頁的全部原始碼資訊。

2. 取資料

爬取整個網頁完畢，接下來的就是的取過程了，首先觀察頁面原始碼：

<div class="li_txt">
    <h3>  xxx  </h3>
    <h4> xxxxx </h4>
    <p> xxxxxxxx </p>

是不是一目瞭然？直接上XPath開始提取資料吧。

我們之前在mySpider/items.py 裡定義了一個ItcastItem類。這裡引入進來

from mySpider.items import ItcastItem

然後將我們得到的資料封裝到一個 ItcastItem 物件中，可以儲存每個老師的屬性：

from mySpider.items import ItcastItem

def parse(self, response):
    #open("teacher.html","wb").write(response.body).close()
    # 存放老師資訊的集合
    items = []

    for each in response.xpath("//div[@class='li_txt']"):
        # 將我們得到的資料封裝到一個 `ItcastItem` 物件
        item = ItcastItem()
        #extract()方法返回的都是字串
        name = each.xpath("h3/text()").extract()
        title = each.xpath("h4/text()").extract()
        info = each.xpath("p/text()").extract()

        #xpath返回的是包含一個元素的列表
        item['name'] = name[0]
        item['title'] = title[0]
        item['info'] = info[0]

        items.append(item)

    # 直接返回最後資料
    return items

我們暫時先不處理管道，後面會詳細介紹。

儲存資料

scrapy儲存資訊的最簡單的方法主要有四種，-o 輸出指定格式的檔案，，命令如下：

# json格式，預設為Unicode編碼
scrapy crawl itcast -o teachers.json

# json lines格式，預設為Unicode編碼
scrapy crawl itcast -o teachers.jsonl

# csv 逗號表示式，可用Excel開啟
scrapy crawl itcast -o teachers.csv

# xml格式
scrapy crawl itcast -o teachers.xml

思考

如果將程式碼改成下面形式，結果完全一樣。

請思考 yield 在這裡的作用：

from mySpider.items import ItcastItem

def parse(self, response):
    #open("teacher.html","wb").write(response.body).close()
    # 存放老師資訊的集合
    #items = []
    for each in response.xpath("//div[@class='li_txt']"):
        # 將我們得到的資料封裝到一個 `ItcastItem` 物件
        item = ItcastItem()
        #extract()方法返回的都是字串
        name = each.xpath("h3/text()").extract_first()
        title = each.xpath("h4/text()").extract_first()
        info = each.xpath("p/text()").extract_first()
        #items.append(item)
        #將獲取的資料交給pipelines
        yield item

    # 返回資料，不經過pipeline
    #return items

Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
利用scrapy建立初始Python爬蟲專案
2018-03-04
Python爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
Scrapy入門-第一個爬蟲專案
2018-07-23
爬蟲
爬蟲入門學習筆記3
2021-01-05
爬蟲筆記
Python爬蟲入門學習實戰專案（一）
2020-02-18
Python爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
python爬蟲—學習筆記-4
2024-04-23
Python爬蟲筆記
python爬蟲—學習筆記-2
2024-04-10
Python爬蟲筆記
Python爬蟲學習筆記(三)
2021-01-30
Python爬蟲筆記
python爬蟲學習筆記（二）
2020-11-24
Python爬蟲筆記
一入爬蟲深似海，總結python爬蟲學習筆記！
2019-02-14
爬蟲Python筆記
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
Python爬蟲之Scrapy學習（基礎篇）
2019-03-04
Python爬蟲
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
學習Python爬蟲難嗎?入門好學嗎?
2020-04-26
Python爬蟲
Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
python專案開發例項-Python專案案例開發從入門到實戰——爬蟲、遊戲
2020-10-28
Python爬蟲遊戲
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
Python 開發簡單爬蟲 (學習筆記)
2019-08-05
Python爬蟲筆記
如何高效的學習Python爬蟲技術？Python入門
2021-05-18
Python爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
學習筆記（4.2）
2019-04-03
筆記
Python爬蟲入門
2020-11-30
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲學習筆記（三、儲存資料）
2020-10-03
Python爬蟲筆記
送給Python小白學習爬蟲的小專案
2020-04-12
Python爬蟲
【Python學習筆記1】Python網路爬蟲初體驗
2018-10-28
Python筆記爬蟲
scrapy通用專案和爬蟲程式碼模板
2021-03-22
爬蟲
python爬蟲利器 scrapy和scrapy-redis 詳解一入門demo及內容解析
2020-10-29
Python爬蟲Redis
Java爬蟲入門(一)——專案介紹
2018-08-06
Java爬蟲

python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））

python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））

入門案例

學習目標

一. 新建專案(scrapy startproject)

二、明確目標(mySpider/items.py)

pycharm中建立scrapy

在pycharm中的Terminal鍵入命令列

啟動爬蟲

三、製作爬蟲 （spiders/itcastSpider.py）

1. 爬資料

將start_urls的值修改為需要爬取的第一個url

修改parse()方法

2. 取資料

是不是一目瞭然？直接上XPath開始提取資料吧。

儲存資料

scrapy儲存資訊的最簡單的方法主要有四種，-o 輸出指定格式的檔案，，命令如下：

思考

如果將程式碼改成下面形式，結果完全一樣。

請思考 yield 在這裡的作用：

相關文章

三、製作爬蟲（spiders/itcastSpider.py）