Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
可以實現功能的全部程式碼:
import requests
import re
def getHTMLText(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def parsePage(ilt, html):
try:
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
ilt.append([price,title])
except:
print("")
def printGoodsList(ilt):
tplt = "{:4}\t{:8}\t{:16}"
print(tplt.format("序號","價格","商品名稱"))
count = 0
for g in ilt:
count = count + 1
print(tplt.format(count,g[0],g[1]))
def main():
goods = '書包'
depth = 2
start_url = 'https://s.taobao.com/search?q=' + goods
infoList = []
for i in range(depth):
try:
url = start_url + '&s=' + str(44*i)
html = getHTMLText(url)
parsePage(infoList, html)
except:
continue
printGoodsList(infoList)
main()
執行示例:
無論爬取什麼網頁都要先看看robots協議。
淘寶的robots協議:
User-agent: *
Disallow: /
但是,我們模仿人一樣的頻率去爬去就沒事啦。
程式的結構設計:
步驟1:提交商品搜尋請求,迴圈獲取頁面
步驟2:對於每個頁面,提取商品名稱和價格資訊
步驟3:將資訊輸出到螢幕上
檢視原始碼:價格在view_prince裡面。
要注意對齊的方式,這樣就沒錯誤:
但是這樣就會報錯:
相關文章
- Python網路爬蟲第三彈《爬取get請求的頁面資料》Python爬蟲
- 爬蟲——網頁爬取方法和網頁解析方法爬蟲網頁
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)(下)Python爬蟲Cookie
- Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)(上)Python爬蟲Cookie
- Python 自用程式碼(scrapy多級頁面(三級頁面)爬蟲)Python爬蟲
- node:爬蟲爬取網頁圖片爬蟲網頁
- python爬蟲爬取網頁中文亂碼問題的解決Python爬蟲網頁
- 手把手教你利用爬蟲爬網頁(Python程式碼)爬蟲網頁Python
- Python爬蟲之網頁圖片Python爬蟲網頁
- 網路爬蟲有什麼用?怎麼爬?手把手教你爬網頁(Python程式碼)爬蟲網頁Python
- 《網頁爬蟲》網頁爬蟲
- python 爬蟲如何爬取動態生成的網頁內容Python爬蟲網頁
- golang解析網頁,可以做爬蟲了Golang網頁爬蟲
- python爬取換頁_爬蟲爬不進下一頁了,怎麼辦Python爬蟲
- python 爬蟲網頁登陸Python爬蟲網頁
- Python使用多程式提高網路爬蟲的爬取速度Python爬蟲
- Python爬蟲入門【9】:圖蟲網多執行緒爬取Python爬蟲執行緒
- 不會Python爬蟲?教你一個通用爬蟲思路輕鬆爬取網頁資料Python爬蟲網頁
- python爬蟲-抓取騰訊招聘資訊頁面Python爬蟲
- python 爬蟲之requests爬取頁面圖片的url,並將圖片下載到本地Python爬蟲
- 如何使用python進行網頁爬取?Python網頁
- 網路爬蟲-去除網頁原始碼中的標籤爬蟲網頁原始碼
- [Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品Python爬蟲
- 一起學爬蟲——使用Beautiful Soup爬取網頁爬蟲網頁
- Node JS爬蟲:爬取瀑布流網頁高清圖JS爬蟲網頁
- python網路爬蟲--爬取淘寶聯盟Python爬蟲
- 關於python爬取網頁Python網頁
- 爬取網頁文章網頁
- [Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-1-Selenium的使用Python爬蟲
- wget 網頁爬蟲,網頁抓取工具wget網頁爬蟲
- 用PYTHON爬蟲簡單爬取網路小說Python爬蟲
- Python爬蟲使用代理proxy抓取網頁Python爬蟲網頁
- python例項,python網路爬蟲爬取大學排名!Python爬蟲
- 「無程式碼」高效的爬取網頁資料神器網頁
- [Python] 網路爬蟲與資訊提取(1) 網路爬蟲之規則Python爬蟲
- python爬取網頁詳細教程Python網頁
- 網頁爬蟲--未完成網頁爬蟲