用Scrapy抓取豆瓣小組資料（二）

鴨脖發表於2014-03-19

接著上篇部落格《用Scrapy抓取豆瓣小組資料（一)》http://my.oschina.net/chengye/blog/124157

在scrapy中怎麼讓Spider自動去抓取豆瓣小組頁面

1，引入Scrapy中的另一個預定義的蜘蛛CrawlSpider

1

from scrapy.contrib.spiders import CrawlSpider,
 Rule

2

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

2，基於CrawSpider定義一個新的類GroupSpider，並新增相應的爬行規則。

01

class GroupSpider(CrawlSpider):

02

    name = "Group"

03

    allowed_domains = ["douban.com"]

04

    start_urls = [

05

        "http://www.douban.com/group/explore?tag=%E8%B4%AD%E7%89%A9",

06

        "http://www.douban.com/group/explore?tag=%E7%94%9F%E6%B4%BB",

07

        "http://www.douban.com/group/explore?tag=%E7%A4%BE%E4%BC%9A",

08

        "http://www.douban.com/group/explore?tag=%E8%89%BA%E6%9C%AF",

09

        "http://www.douban.com/group/explore?tag=%E5%AD%A6%E6%9C%AF",

10

        "http://www.douban.com/group/explore?tag=%E6%83%85%E6%84%9F",

11

        "http://www.douban.com/group/explore?tag=%E9%97%B2%E8%81%8A",

12

        "http://www.douban.com/group/explore?tag=%E5%85%B4%E8%B6%A3"

13

    ]

14

15

    rules = [

16

        Rule(SgmlLinkExtractor(allow=('/group/[^/]+/$',
 )), callback='parse_group_home_page',
 process_request='add_cookie'),

17

        Rule(SgmlLinkExtractor(allow=('/group/explore\?tag',
 )), follow=True,
 process_request='add_cookie'),

18

    ]

start_urls預定義了豆瓣有所小組分類頁面，蜘蛛會從這些頁面出發去找小組。

rules定義是CrawlSpider中最重要的一環，可以理解為：當蜘蛛看到某種型別的網頁，如何去進行處理。

例如，如下規則會處理URL以/group/XXXX/為字尾的網頁，呼叫parse_group_home_page為處理函式，並且會在request傳送前呼叫add_cookie來附加cookie資訊。

1

Rule(SgmlLinkExtractor(allow=('/group/[^/]+/$',
 )), callback='parse_group_home_page',
 process_request='add_cookie'),

又如，如下規則會抓取網頁內容，並自動抓取網頁中連結供下一步抓取，但不會處理網頁的其他內容。

1

Rule(SgmlLinkExtractor(allow=('/group/explore\?tag',
 )), follow=True,
 process_request='add_cookie'),

如何新增Cookie

定義如下函式，並如前面所講在Rule定義裡新增process_request=add_cookie。

1

def add_cookie(self,
 request):

2

    request.replace(cookies=[

3

        {'name': 'COOKIE_NAME','value': 'VALUE','domain': '.douban.com','path': '/'},

4

        ]);

5

    return request;

一般網站在client端都用cookie來儲存使用者的session資訊，新增cookie資訊就可以模擬登陸使用者來抓取資料。

如何防止蜘蛛被網站Ban掉

首先可以嘗試新增登陸使用者的cookie去抓取網頁，即使你抓取的是公開網頁，新增cookie有可能會防止蜘蛛在應用程式層被禁。這個我沒有實際驗證過，但肯定沒有壞處。

其次，即使你是授權使用者，如果你的訪問過於頻繁，你的IP會可能被ban，所以一般你需要讓蜘蛛在訪問網址中間休息1~2秒。

還有就是配置User Agent，儘量輪換使用不同的UserAgent去抓取網頁

在Scrapy專案的settings.py鍾，新增如下設定：

1

DOWNLOAD_DELAY = 2

2

RANDOMIZE_DOWNLOAD_DELAY = True

3

USER_AGENT = 'Mozilla/5.0
 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'

4

COOKIES_ENABLED = True

================

到此位置，抓取豆瓣小組頁面的蜘蛛就完成了。接下來，可以按照這種模式定義抓取小組討論頁面資料的Spider，然後就放手讓蜘蛛去爬行吧！Have Fun！

01

from scrapy.contrib.spiders import CrawlSpider,
 Rule

02

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor

03

from scrapy.selector import HtmlXPathSelector

04

from scrapy.item import Item

05

from douban.items import DoubanItem

06

import re

07

08

class GroupSpider(CrawlSpider):

09

    name = "Group"

10

    allowed_domains = ["douban.com"]

11

    start_urls = [

12

        "http://www.douban.com/group/explore?tag=%E8%B4%AD%E7%89%A9",

13

        "http://www.douban.com/group/explore?tag=%E7%94%9F%E6%B4%BB",

14

        "http://www.douban.com/group/explore?tag=%E7%A4%BE%E4%BC%9A",

15

        "http://www.douban.com/group/explore?tag=%E8%89%BA%E6%9C%AF",

16

        "http://www.douban.com/group/explore?tag=%E5%AD%A6%E6%9C%AF",

17

        "http://www.douban.com/group/explore?tag=%E6%83%85%E6%84%9F",

18

        "http://www.douban.com/group/explore?tag=%E9%97%B2%E8%81%8A",

19

        "http://www.douban.com/group/explore?tag=%E5%85%B4%E8%B6%A3"

20

    ]

21

22

    rules = [

23

        Rule(SgmlLinkExtractor(allow=('/group/[^/]+/$',
 )), callback='parse_group_home_page',
 process_request='add_cookie'),

24

    #  
 Rule(SgmlLinkExtractor(allow=('/group/[^/]+/discussion\?start\=(\d{1,4})$', )), callback='parse_group_topic_list', process_request='add_cookie'),

25

        Rule(SgmlLinkExtractor(allow=('/group/explore\?tag',
 )), follow=True,
 process_request='add_cookie'),

26

    ]

27

28

    def __get_id_from_group_url(self,
 url):

29

        m =  re.search("^http://www.douban.com/group/([^/]+)/$",
 url)

30

        if(m):

31

            return m.group(1)

32

        else:

33

            return 0

34

35

36

37

    def add_cookie(self,
 request):

38

        request.replace(cookies=[

39

40

        ]);

41

        return request;

42

43

    def parse_group_topic_list(self,
 response):

44

        self.log("Fetch
 group topic list page: %s" % response.url)

45

        pass

46

47

48

    def parse_group_home_page(self,
 response):

49

50

        self.log("Fetch
 group home page: %s" % response.url)

51

52

        hxs = HtmlXPathSelector(response)

53

        item = DoubanItem()

54

55

        #get
 group name

56

        item['groupName'] = hxs.select('//h1/text()').re("^\s+(.*)\s+$")[0]

57

58

        #get
 group id

59

        item['groupURL'] = response.url

60

        groupid = self.__get_id_from_group_url(response.url)

61

62

        #get
 group members number

63

        members_url = "http://www.douban.com/group/%s/members" % groupid

64

        members_text = hxs.select('//a[contains(@href,
 "%s")]/text()' % members_url).re("\((\d+)\)")

65

        item['totalNumber'] = members_text[0]

66

67

        #get
 relative groups

68

        item['RelativeGroups'] = []

69

        groups = hxs.select('//div[contains(@class,
 "group-list-item")]')

70

        for group in groups:

71

            url = group.select('div[contains(@class,
 "title")]/a/@href').extract()[0]

72

            item['RelativeGroups'].append(url)

73

        #item['RelativeGroups']
 = ','.join(relative_groups)

74

        return item<span><span
 style="line-height:20px;">
 </span></span>

scrapy爬取豆瓣電影資料
2021-09-11
Puppeteer 爬取豆瓣小組公開資訊
2020-05-21
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
使用scrapy抓取Youtube播放列表資訊
2019-02-16
儲存資料到MySql資料庫——我用scrapy寫爬蟲（二）
2019-02-16
MySql資料庫爬蟲
批量抓取豆瓣電影圖片
2021-11-15
使用Scrapy抓取新浪微博使用者資訊
2019-02-16
Python爬蟲入門教程 33-100 《海王》評論資料抓取 scrapy
2019-02-14
Python爬蟲
【仿豆瓣小組】極簡社群開源產品
2019-05-11
Scrapy爬蟲：實習僧網最新招聘資訊抓取
2021-09-09
爬蟲
scrapy入門：豆瓣電影top250爬取
2019-02-16
python爬蟲實踐: 豆瓣小組命令列客戶端
2019-02-16
Python爬蟲命令列客戶端
windows安裝Anaconda3，Anaconda3安裝scrapy抓取鏈家資料入門例子
2018-12-12
Windows
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Scrapy爬取二手房資訊+視覺化資料分析
2019-03-04
視覺化
用代理IP抓取大資料有什麼好處？
2022-11-22
大資料
豆瓣top250資料爬取
2020-11-09
使用python3抓取鏈家二手房資料
2018-04-18
Python
python簡書資料抓取
2018-08-25
Python
scrapy爬取鏈家二手房存到mongo資料庫
2021-01-03
Go資料庫
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Scrapy框架-通過scrapy_splash解析動態渲染的資料
2018-07-13
框架
資料包抓取工具：Debookee for mac
2022-07-06
Mac
Debookee for mac(資料包抓取工具)
2022-07-05
Mac
爬蟲原理與資料抓取
2020-12-17
爬蟲
使用Scrapy抓取優酷視訊列表頁（電影/電視）
2019-02-16
如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料
2019-05-15
PHP爬蟲亞馬遜
在 ios 手機上用 charles 抓包，抓取不到 wss 資料。
2020-10-12
iOS
【資料視覺化】周杰倫新歌《Mojito》豆瓣短評資料
2020-06-26
視覺化
視訊：豆瓣資料架構實踐DX
2022-03-21
架構
18.2 使用NPCAP庫抓取資料包
2023-10-26
PCA
TypeScript_抓取酒店價格資料
2023-11-07
TypeScript
Python抓取淘寶IP地址資料
2019-04-26
Python
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
業務資料抓取的影響
2022-01-17
網頁資料抓取之噹噹網
2020-12-21
網頁
使用scrapy框架把資料非同步寫入資料庫
2018-07-16
框架非同步資料庫
營銷模組資料庫表解析（二）
2021-09-09
資料庫
用 shelve 模組來存資料
2019-08-31

用Scrapy抓取豆瓣小組資料（二）

在scrapy中怎麼讓Spider自動去抓取豆瓣小組頁面

如何新增Cookie

如何防止蜘蛛被網站Ban掉

相關文章