scrapy框架攜帶cookie訪問淘寶購物車

Wu發表於2020-07-06

原文網址 : https://www.cnblogs.com/bertwu/p/13210878.html

我們知道，有的網頁必須要登入才能訪問其內容。scrapy登入的實現一般就三種方式。

1.在第一次請求中直接攜帶使用者名稱和密碼。

2.必須要訪問一次目標地址，伺服器返回一些引數，例如驗證碼，一些特定的加密字串等，自己通過相應手段分析與提取，第二次請求時帶上這些引數即可。可以參考https://www.cnblogs.com/bertwu/p/13210539.html

3.不必花裡胡哨，直接手動登入成功，然後提取出cookie，加入到訪問頭中即可。

本文以第三種為例，實現scrapy攜帶cookie訪問購物車。

1.先手動登入自己的淘寶賬號，從中提取出cookie，如下圖中所示。

2.cmd中workon自己的虛擬環境，建立專案（scrapy startproject taobao）

3.pycharm開啟專案目錄，在terminal中輸入（scrapy genspider itaobao taobao.com）,得到如下的目錄結構

4.setting中設定相應配置

5. 在itaobao中寫業務程式碼。我們先不加人cookie直接訪問購物車，程式碼如下：

import scrapy


class ItaobaoSpider(scrapy.Spider):
    name = 'itaobao'
    allowed_domains = ['taobao.com']
    start_urls = [
        'https://cart.taobao.com/cart.htm?spm=a1z02.1.a2109.d1000367.OOeipq&nekot=1470211439694']  # 第一次就直接訪問購物車

    def parse(self, response):
        print(response.text)

響應回來資訊如下

明顯是跳轉到登入頁面的意思。

6.言歸正傳，正確的程式碼如下，需要重寫start_requests()方法，此方法可以返回一個請求給爬蟲的起始網站，這個返回的請求相當於start_urls，start_requests()返回的請求會替代start_urls裡的請求。

 1 import scrapy
 2 
 3 
 4 class ItaobaoSpider(scrapy.Spider):
 5     name = 'itaobao'
 6     allowed_domains = ['taobao.com']
 7 
 8     # start_urls = ['https://cart.taobao.com/cart.htm?spm=a1z02.1.a2109.d1000367.OOeipq&nekot=1470211439694']
 9     # 需要重寫start_requests方法
10     def start_requests(self):
11         url = "https://cart.taobao.com/cart.htm?spm=a1z02.1.a2109.d1000367.OOeipq&nekot=1470211439694"
12         # 此處的cookie為手動登入後從瀏覽器貼上下來的值
13         cookie = "thw=cn; cookie2=16b0fe13709f2a71dc06ab1f15dcc97b; _tb_token_=fe3431e5fe755;" \
14                  " _samesite_flag_=true; ubn=p; ucn=center; t=538b39347231f03177d588275aba0e2f;" \
15                  " tk_trace=oTRxOWSBNwn9dPyorMJE%2FoPdY8zfvmw%2Fq5hoqmmiKd74AJ%2Bt%2FNCZ%" \
16                  "2FSIX9GYWSRq4bvicaWHhDMtcR6rWsf0P6XW5ZT%2FgUec9VF0Ei7JzUpsghuwA4cBMNO9EHkGK53r%" \
17                  "2Bb%2BiCEx98Frg5tzE52811c%2BnDmTNlzc2ZBkbOpdYbzZUDLaBYyN9rEdp9BVnFGP1qVAAtbsnj35zfBVfe09E%" \
18                  "2BvRfUU823q7j4IVyan1lagxILINo%2F%2FZK6omHvvHqA4cu2IaVAhy5MzzodyJhmXmOpBiz9Pg%3D%3D; " \
19                  "cna=5c3zFvLEEkkCAW8SYSQ2GkGo; sgcookie=E3EkJ6LRpL%2FFRZIBoXfnf; unb=578051633; " \
20                  "uc3=id2=Vvl%2F7ZJ%2BJYNu&nk2=r7kpR6Vbl9KdZe14&lg2=URm48syIIVrSKA%3D%3D&vt3=F8dBxGJsy36E3EwQ%2BuQ%3D;" \
21                  " csg=c99a3c3d; lgc=%5Cu5929%5Cu4ED9%5Cu8349%5Cu5929%5Cu4ED9%5Cu8349; cookie17=Vvl%2F7ZJ%2BJYNu;" \
22                  " dnk=%5Cu5929%5Cu4ED9%5Cu8349%5Cu5929%5Cu4ED9%5Cu8349; skt=4257a8fa00b349a7; existShop=MTU5MzQ0MDI0MQ%3D%3D;" \
23                  " uc4=nk4=0%40rVtT67i5o9%2Bt%2BQFc65xFQrUP0rGVA%2Fs%3D&id4=0%40VH93OXG6vzHVZgTpjCrALOFhU4I%3D;" \
24                  " tracknick=%5Cu5929%5Cu4ED9%5Cu8349%5Cu5929%5Cu4ED9%5Cu8349; _cc_=W5iHLLyFfA%3D%3D; " \
25                  "_l_g_=Ug%3D%3D; sg=%E8%8D%893d; _nk_=%5Cu5929%5Cu4ED9%5Cu8349%5Cu5929%5Cu4ED9%5Cu8349;" \
26                  " cookie1=VAmiexC8JqC30wy9Q29G2%2FMPHkz4fpVNRQwNz77cpe8%3D; tfstk=cddPBI0-Kbhyfq5IB_1FRmwX4zaRClfA" \
27                  "_qSREdGTI7eLP5PGXU5c-kQm2zd2HGhcE; mt=ci=8_1; v=0; uc1=cookie21=VFC%2FuZ9ainBZ&cookie15=VFC%2FuZ9ayeYq2g%3D%3D&cookie" \
28                  "16=WqG3DMC9UpAPBHGz5QBErFxlCA%3D%3D&existShop=false&pas=0&cookie14=UoTV75eLMpKbpQ%3D%3D&cart_m=0;" \
29                  " _m_h5_tk=cbe3780ec220a82fe10e066b8184d23f_1593451560729; _m_h5_tk_enc=c332ce89f09d49c68e13db9d906c8fa3; " \
30                  "l=eBxAcQbPQHureJEzBO5aourza7796IRb8sPzaNbMiInca6MC1hQ0PNQD5j-MRdtjgtChRe-PWBuvjdeBWN4dbNRMPhXJ_n0xnxvO.; " \
31                  "isg=BJ2drKVLn8Ww-Ht9N195VKUWrHmXutEMHpgqKF9iKfRAFrxIJAhD3DbMRAoQ1unE"
32         cookies = {}
33         # 提取鍵值對 請求頭中攜帶cookie必須是一個字典，所以要把原生的cookie字串轉換成cookie字典
34         for cookie in cookie.split(';'):
35             key, value = cookie.split("=", 1)
36             cookies[key] = value
37         yield scrapy.Request(url=url, cookies=cookies, callback=self.parse)
38 
39     def parse(self, response):
40         print(response.text)

響應資訊如下（部分片段）：

很明顯這是自己購物車的真實原始碼。

好了，大功告成啦，接下來就可以按照業務需求用xpath(自己喜歡用這種方式)提取自己想要的資訊了。

淘寶買家授權API系列：新增購物車商品、刪除購物車商品、獲取購物車商品列表
2023-03-13
API
淘寶/天貓新增到購物車 API 介面返回值說明
2023-04-11
API
淘寶/天貓新增到購物車 API 呼叫詳情步驟（程式碼演示）
2023-03-30
API
貝塞爾曲線的css實現——淘寶加入購物車基礎動畫
2019-02-17
CSS動畫
2018淘寶全球購海淘白皮書
2018-12-07
淘物購物商城——原型設計
2024-04-14
原型
[Vue2.0]手擼手淘H5購物車
2018-11-24
VueH5
"淘寶大資料揭秘：購物狂歡節背後的秘密！"
2023-10-07
大資料
Cookie的設定、讀取以及是否自動攜帶問題
2018-07-29
Cookie
vue-resource get/post請求如何攜帶cookie的問題
2018-04-24
VueCookie
2016淘寶天貓618購物津貼領取入口購物津貼怎麼使用規則介紹
2022-03-20
揭秘淘寶搜尋API：打造你的專屬購物搜尋引擎！
2023-10-08
API
淘寶/天貓淘寶評論問答列表(item_question_answer-淘寶評論問答列表介面)
2023-04-14
淘寶程式設計師沒活硬整？在 Excel 和 VSCode 中購物！
2024-10-11
程式設計師ExcelVSCode
網上購物框架
2024-06-16
框架
美就購－淘寶天貓折扣網
2019-05-11
day83:luffy:新增購物車&導航欄購物車數字顯示&購物車頁面展示
2020-11-09
flutter 購物車功能
2019-01-25
Flutter
購物車模組
2020-12-06
ATM+購物車
2020-12-18
Vue3 跨域請求攜帶cookie操作並記錄cookie
2020-10-28
Vue跨域Cookie
[譯]使用Laravel訪問前端Cookie
2019-01-09
Laravel前端Cookie
京東購物小程式cookie方案實踐
2020-01-10
Cookie
禁用 COOKIE 後如何訪問 SESSION 問題
2020-05-17
CookieSession
ajax 請求攜帶cookie 瀏覽器報錯
2018-09-17
Cookie瀏覽器
python之購物車程式
2021-09-09
Python
淘寶，拼多多大容量機構硬碟購買
2024-11-05
硬碟
Scrapy框架
2023-03-29
框架
Scrapy框架的使用之Scrapy框架介紹
2018-05-02
框架
jQuery 加入購物車彈窗
2019-01-20
jQuery
購物車的實現原理
2019-03-10
vue例項-購物車功能
2018-07-17
Vue
購物車原理以及實現
2018-08-19
Vue實現購物車效果
2020-10-12
Vue
淘寶API：淘寶/天貓獲得淘寶商品快遞費用
2023-03-04
API
淘寶全球購：2019養生消費者畫像
2019-08-23
淘寶API，按圖搜尋淘寶商品（拍立淘）
2023-02-22
API
淘寶映象cnpm無法使用問題
2020-11-03
NPM

scrapy框架攜帶cookie訪問淘寶購物車

我們知道，有的網頁必須要登入才能訪問其內容。scrapy登入的實現一般就三種方式。

本文以第三種為例，實現scrapy攜帶cookie訪問購物車。

相關文章