2018-02-04更新---支付寶爬蟲(Python-Scrapy版本)

NullSpider發表於2017-11-29

爬蟲Python

問題反饋

在使用中有任何問題，可以反饋給我，以下聯絡方式跟我交流

Author: Leo
Wechat: Leo-sunhailin
E-mail: 379978424@qq.com
Github URL: 專案連結

目前的進度

2018年2月4日:
- 更新說明看: Release
2018年1月:
- 將更新提上日程,在測試二維碼登入.先上個半成品
- 原先密碼登陸的現在基本上不能用了.因為個人頁面多了一種反爬手段,其次就是跳出二維碼頁面.
- 上面這些問題,將在之後儘量解決.
大概在2017年11月~12月的樣子：
- 開始出現跳出驗證碼頁面了.原因應該是支付寶反爬的模型增強了.
- 這段時間維護時間不多,都是個人測試沒有更新程式碼上去
2017年10月參加DoraHacks時:
- 當時能夠獲取到賬單和賬戶資訊.

開發環境

系統版本：Win10 x64
Python版本：3.4.4
- Python庫版本列表:
  - Pillow: 5.0.0
  - Scrapy：1.4.0
  - selenium：3.8.1
  - requests：2.18.4
  - pymongo：3.6.0
  - python_dateutil：2.6.1
Ps: 一定要配好Python的環境,不然Scrapy的命令可能會跑不起來

安裝和執行方式

* 安裝庫

    # 專案根目錄下,開啟命令列
    pip install -r requirements.txt
複製程式碼

啟動

    # 專案根目錄下,啟動爬蟲
    scrapy crawl AlipaySpider -a username="你的使用者名稱" -a password="你的密碼"
    
    # 必選引數
    -a username=<賬號>
    -a password=<密碼>
    
    # 可選引數
    -a option=<爬取型別>
    # 1 -> 購物; 2 -> 線下; 3 -> 還款; 4 -> 繳費
    # 這裡面有四種型別資料對應四種不同的購物清單
    
    #####################################################
    # 實驗版本
    scrapy crawl AlipayQR
    
    # 暫時還沒有引數, 能登陸到個人頁面了.
複製程式碼

功能

模擬登入支付寶(賬號密碼和二位都可以登陸)
獲取自定義賬單記錄和花唄剩餘額度(2017年10月份的時候個人頁面還有花唄總額度的,後面改版沒有了.再之後又出現了,應該是支付寶內部在做調整)
資料儲存在MongoDB中(暫時儲存在MongoDB,後續支援sqlite,json或其他格式的資料)
日誌記錄系統,啟動爬蟲後會在專案根目錄下建立一個Alipay.log的檔案(同時寫入檔案和輸出在控制檯)

技術點

吐槽一下: 這點可能沒啥好說,因為程式碼是從自己之前寫的用非框架的程式碼搬過來的,搬過來之後主要就是適應Scrapy這個框架,理解框架的意圖和執行順序以及專案的結構,然後進行相容和測試。

我這個專案主要就用到Spider模組(即爬蟲模組),Pipeline和item(即寫資料的管道和實體類)

Downloader的那塊基本沒做處理,因為核心還是在用selenium + webdriver,解析頁面用的是Scrapy封裝好的Selector.

Scrapy具體的流程看下圖: (從官方文件搬過來的)

題外話

題外話模組: 上一段講到了一個Selector,這個是東西是Scrapy基於lxml開發的,但是真正用的時候其實和lxml的selector有點區別.

舉個例子吧：

# 兩段相同的標籤獲取下面的文字的方式
# lxml
name = str(tr.xpath('td[@class="name"]/p/a/text()').strip()

# Scrapy
name = tr.xpath('string(td[@class="name"]/p/a)').extract()[0].strip()
複製程式碼

兩行程式碼對同一個標籤的文字提取的方法有些不一樣,雖然到最後的結果一樣。

lxml中有一個"string(.)"方法也是為了提取文字,但是這個方法是要在先指定了父節點或最小子節點後再使用,就可以獲取父節點以下的所有文字或最小子節點對應的文字資訊.

而Scrapy的Selector則可以在"string(.)"裡面寫入標籤,方便定位,也很清晰的看出是要去獲取文字資訊.

具體區別其實可以對比下我非框架下的和Scrapy框架下的程式碼,裡面用xpath定位的方式有點不一樣.

selenium + lxml: 非框架
Scrapy + selenium: Scrapy

未來的進度

資料來源儲存的可選擇性(從多源選擇單源寫入到多源寫入)
修改配置檔案的自由度(增加修改settings.py的引數)
儘可能優化爬蟲的爬取速度
研究Scrapy的自定義命令的寫法,提高擴充套件性

【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
支付寶9.9版本即將更新部分使用者收到更新推送
2016-08-04
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲
爬蟲
2024-11-16
爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
【python爬蟲】python爬蟲demo
2018-02-21
Python爬蟲
爬蟲那些事－爬蟲設計思路
2017-08-02
爬蟲
爬蟲：如何判斷一個網頁已經更新？
2019-04-04
爬蟲網頁
爬蟲專案（一）爬蟲+jsoup輕鬆爬知乎
2017-02-07
爬蟲JS
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
爬蟲技術(二)－客戶端爬蟲
2017-03-14
爬蟲客戶端
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
request爬蟲
2019-02-16
爬蟲
爬蟲2
2018-01-31
爬蟲
科普：爬蟲
2018-06-29
爬蟲
scrapy爬蟲
2012-05-09
爬蟲
爬蟲概述
2024-05-02
爬蟲
app爬蟲
2024-05-04
APP爬蟲
爬蟲案例
2024-03-31
爬蟲
爬蟲學習日記（十一）selenium 頁面元素更新
2019-03-14
爬蟲
Python爬蟲教程-27-Selenium Chrome版本與chromedriver相容版本對照表
2018-09-06
Python爬蟲Chrome
爬蟲進階路程2——centos安裝各個版本chrome
2020-12-10
爬蟲CentOSChrome
C#爬蟲與反爬蟲--字型加密篇
2019-06-26
C#爬蟲加密
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
分散式爬蟲原理之分散式爬蟲原理
2018-05-25
分散式爬蟲
在scrapy框架下建立爬蟲專案，建立爬蟲檔案，執行爬蟲檔案
2018-03-01
框架爬蟲
【python--爬蟲】彼岸圖網高清桌布爬蟲
2019-07-21
Python爬蟲
什麼是爬蟲？Python爬蟲框架有哪些？
2022-04-18
爬蟲Python框架
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
實用爬蟲-01-檢測爬蟲的 IP
2018-09-08
爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python