加班時的靈感迸發，我用selenium做了個視窗化的爬*寶資料。（附原始碼連結）

佟大帥發表於2021-11-17

原文網址 : https://www.cnblogs.com/t-dashuai/p/15569509.html

原始碼

完整程式碼&火狐瀏覽器驅動下載連結：https://pan.baidu.com/s/1pc8HnHNY8BvZLvNOdHwHBw 提取碼：4c08

雙十一剛過，想著某寶的資訊看起來有些少很難做出購買決定。於是就有了下面的設計：

既然有了想法那就趕緊說幹就幹趁著雙十二還沒到

一、準備工作：
安裝：selenium 和 tkinter

pip install selenium

pip install tkinter

下載火狐瀏覽器驅動

二、網站分析
發現web端如果不登入就不能進行查詢商品

登入後查詢口紅

發現url竟然張這樣

https://s.taobao.com/search?q=口紅&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20211117&ie=utf8&bcoffset=1&ntoffset=1&p4ppushleft=2%2C48&s=44

通過觀察發現url中的q=**表示的是搜尋的內容 s=**表示頁數

接下來確定網頁中我們將要採集的資料

採集的資料有：商品價格；付款人數；商品標題；店鋪url；店家地址；

三、程式碼編寫
1、類庫引用

import json
import pandas as pd
from selenium import webdriver
import time
from tkinter import *
import tkinter.messagebox

2、視窗化程式碼實現

# 設定視窗
window = Tk()
window.title('qcc_nw0.1')
# 設定視窗大小
window.geometry('500x200')
# lable標籤
l = Label(window, text='如何真正逛淘寶！！', bg='green', fg='white', font=('Arial', 12), width=30, height=2)
l.pack()
# 輸入要查詢的寶貝的文字框
E1 = Text(window,width='100',height='2')
E1.pack()
def get_cookie():
pass
def get_data():
pass
# cookie獲取按鈕
cookie = Button(window, text='cookie獲取', font=('Arial', 10), width=15, height=1,ommand=get_cookie)
# 資料開按鈕
data = Button(window, text='資料獲取', font=('Arial', 10), width=15, height=1,ommand=get_data)
cookie.pack(anchor='nw')
data.pack(anchor='nw')
window.mainloop()

3、免登陸功能實現
對已經登入網站的cookie獲取

def get_cookie():
# 新建瀏覽器
dirver = webdriver.Firefox()
dirver.get('https://login.taobao.com/member/login.jhtml?redirectURL=http%3A%2F%2Fbuyertrade.taobao.com%2Ftrade%2Fitemlist%2Flist_bought_items.htm%3Fspm%3D875.7931836%252FB.a2226mz.4.66144265Vdg7d5%26t%3D20110530')
# 設定登入延時獲取cookie
time.sleep(20)
# 直接用手機掃碼登陸淘寶即可獲取
dictCookies = dirver.get_cookies()
# 登入完成後,將cookies儲存到本地檔案
jsonCookies = json.dumps(dictCookies)
with open("cookies_tao.json", "w") as fp:
fp.write(jsonCookies)

讀取獲取後的cookie實現登入效果：

1）先對selenium使用的模擬瀏覽器進行下偽裝設定否則會被檢測

def get_data():
options = webdriver.FirefoxOptions()
profile = webdriver.FirefoxProfile()
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
profile.set_preference('general.useragent.override', ua)#UA偽裝
profile.set_preference("dom.webdriver.enabled", False) # 設定非driver驅動
profile.set_preference('useAutomationExtension', False) # 關閉自動化提示
profile.update_preferences() # 更新設定
browser = webdriver.Firefox(firefox_profile=profile, firefox_options=options)

2）讀取獲取到的cookie實現免登陸

# 刪除原有的cookie
browser.delete_all_cookies()
with open('cookies_tao.json', encoding='utf-8') as f:
listCookies = json.loads(f.read())
# cookie 讀取傳送
for cookie in listCookies:
# print(cookie)
browser.add_cookie({
'domain': '.taobao.com', # 此處xxx.com前，需要帶點
'name': cookie['name'],
'value': cookie['value'],
'path': '/',
'expires': None
})

4、解析網頁進行資料獲取

# 獲取輸入框中的資訊
thing =E1.get('1.0','end')

# 設定將要採集的URL地址
url= "https://s.taobao.com/search?q=%s"
# 設定採集的商品名稱
browser.get(url%thing)
# 視窗最小化
browser.minimize_window()
# 獲取商品總頁數
page_count = browser.find_element_by_xpath('/html/body/div[1]/div[2]/div[3]/div[1]/div[26]/div/div/div/div[1]').text
page_count = int(page_count.split(' ')[1])
# 設定接收字典
dic = {'real_title':[],'price':[],'payment_num':[],'provide':[],'city':[],'shop_name':[],'shop_url':[]}
# 迴圈翻頁設定
for i in range(page_count):
page = i*44
browser.get(url%thing + '&s=%d'%page)
div_list = browser.find_elements_by_xpath('//div[@class="ctx-box J_MouseEneterLeave J_IconMoreNew"]')
# 迴圈遍歷商品資訊
for divs in div_list:
# 商品標題獲取
real_title = divs.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text
# 商品價格獲取
price = divs.find_element_by_xpath('.//div[@class="price g_price g_price-highlight"]/strong').text
# 商品付款人數獲取
payment_num = divs.find_element_by_xpath('.//div[@class="deal-cnt"]').text
# 店家地址獲取
location = divs.find_element_by_xpath('.//div[@class="row row-3 g-clearfix"]/div[@class="location"]').text
# 店家名稱獲取
shop_name = divs.find_element_by_xpath('.//div[@class="row row-3 g-clearfix"]/div[@class="shop"]/a/span').text
# 店家URL獲取
shop_url = divs.find_element_by_xpath('.//div[@class="row row-3 g-clearfix"]/div[@class="shop"]/a').get_attribute('href')
# 判斷地址是否為自治區或直轄市
if len(location.split(' '))>1:
provide=location.split(' ')[0]
city=location.split(' ')[1]
else:
provide=location.split(' ')[0]
city = location.split(' ')[0]
# 將採集的資料新增至字典中
dic['real_title'].append(real_title)
dic['price'].append(price)
dic['payment_num'].append(payment_num.replace('+人付款',''))
dic['provide'].append(provide)
dic['city'].append(city)
dic['shop_name'].append(shop_name)
dic['shop_url'].append(shop_url)
print(real_title,price,payment_num.replace('+人付款',''),provide,city,shop_name,shop_url)
# 使用pandas將獲取的資料寫入csv檔案持久化儲存
df=pd.DataFrame(dic)
df.to_csv('C:/Users/admin/Desktop/'+thing.strip('\n')+'.csv')
browser.close()

截止至此基本完成

發現這樣的資料寫入是不會儲存的所以要新增一個提示框來終止get_data函式的執行

def warning():
# 彈出對話方塊
result = tkinter.messagebox.showinfo(title = 'success！',message='主人！資料獲取完成')
# 返回值為：ok

在get_data函式中巢狀warning函式.

-----完活下班！！！！-----

AnyChart令人敬畏的資料視覺化示例靈感案例
2021-02-20
視覺化
Markdown連結採用新開視窗的方式開啟
2020-12-31
圖表控制元件AnyChart令人敬畏的資料視覺化示例靈感
2021-02-23
控制元件視覺化
換個思路的恐怖遊戲也能迸發出綜藝感的熱度
2020-10-14
遊戲
資料視覺化領域的6個著名實踐及其原始碼
2018-04-26
視覺化原始碼
Tensorflow 視窗時間序列資料的處理
2022-04-28
如何爬取視訊的爬蟲程式碼原始碼
2020-12-26
爬蟲原始碼
連結串列還會用嗎？用連結串列實現棧（附演算法原始碼）
2024-11-23
演算法原始碼
VMware招聘資深開發工程師，不加班，靈活工作時間
2019-09-05
工程師
連結串列還會用嗎？用連結串列實現佇列（附演算法原始碼）
2024-11-23
佇列演算法原始碼
ArcGIS開發（二）——一個基本視窗的例項化
2018-06-20
12個流行的Python資料視覺化庫總結
2019-01-11
Python視覺化
[Python3]selenium爬取淘寶商品資訊
2021-09-09
Python
短視訊app原始碼，連麥時最小化出現可移動懸浮窗
2022-01-24
APP原始碼
Matplotlib視覺化最有價值的50個圖表（附完整Python原始碼）
2019-01-15
視覺化Python原始碼
Android 8.0 原始碼分析 (十) WindowManagerService 的視窗管理
2019-11-12
Android原始碼
vscode原始碼分析【九】視窗裡的主要元素
2019-06-21
VSCode原始碼
爬蟲在大資料時代的應用
2023-04-27
爬蟲大資料
adb 可以多個視窗同時連線一個裝置嗎？
2020-05-31
python利用selenium+phantomJS爬淘寶
2018-06-02
PythonJS
在新視窗開啟連結的方法是什麼？那怎麼設定全站連結都在新視窗開啟？
2024-11-24
資料結構--單連結串列的建立和遍歷（程式碼優化）
2021-01-05
資料結構優化
資料結構實驗：連結串列的應用
2018-06-25
資料結構
解密MSSQL連結資料庫的密碼
2020-08-19
解密SQL資料庫密碼
vue 新視窗開啟外連結
2018-12-26
Vue
Python如何爬取實時變化的WebSocket資料
2019-03-10
PythonWeb
用物化檢視單行同步資料庫時，源表結構變化時的處理步驟
2019-04-06
資料庫
資料視覺化的知識總結
2019-03-07
視覺化
我做了個噩
2018-07-16
簡單的 Selenium 爬蟲應用及定時桌面提示圖示
2020-03-11
爬蟲
用go開發了一個實時檢視mysql資料字典的小工具
2019-09-03
GoMySql
28個資料視覺化圖表的總結和介紹
2023-01-08
視覺化
jdk1.8原始碼解析：HashMap底層資料結構之連結串列轉紅黑樹的具體時機
2019-08-01
JDK原始碼HashMap資料結構
我給中國??奧運?數做了視覺化
2021-08-02
視覺化
使用selenium進行爬取掘金前端小冊的資料
2019-08-13
前端
zf_利用feapder中的selenium網頁爬取資料
2024-06-03
網頁
【Python】python連結串列應用原始碼示例
2019-06-27
Python原始碼
Selenium 獲取複製後的連結
2020-08-05

加班時的靈感迸發，我用selenium做了個視窗化的爬*寶資料。（附原始碼連結）

相關文章