如何利用BeautifulSoup選擇器抓取京東網商品資訊

dcpeng發表於2020-05-24

原文網址 : https://www.cnblogs.com/dcpeng/p/12950996.html

昨天小編利用Python正規表示式爬取了京東網商品資訊，看過程式碼的小夥伴們基本上都坐不住了，辣麼多的規則和辣麼長的程式碼，悲傷辣麼大，實在是受不鳥了。不過小夥伴們不用擔心，今天小編利用美麗的湯來為大家演示一下如何實現京東商品資訊的精準匹配~~

HTML檔案其實就是由一組尖括號構成的標籤組織起來的，每一對尖括號形式一個標籤，標籤之間存在上下關係，形成標籤樹；因此可以說Beautiful Soup庫是解析、遍歷、維護“標籤樹”的功能庫。

如何利用BeautifulSoup抓取京東網商品資訊

首先進入京東網，輸入自己想要查詢的商品，向伺服器傳送網頁請求。在這裡小編仍以關鍵詞“狗糧”作為搜尋物件，之後得到後面這一串網址：https://search.jd.com/Search?keyword=%E7%8B%97%E7%B2%AE&enc=utf-8，其中引數的意思就是我們輸入的keyword，在本例中該引數代表“狗糧”，具體詳情可以參考Python大神用正規表示式教你搞定京東商品資訊。所以，只要輸入keyword這個引數之後，將其進行編碼，就可以獲取到目標URL。之後請求網頁，得到響應，爾後利用bs4選擇器進行下一步的資料採集。

商品資訊在京東官網上的部分網頁原始碼如下圖所示：

如何利用BeautifulSoup抓取京東網商品資訊

仔細觀察原始碼，可以發現我們所需的目標資訊是存在

標籤下的，那麼接下來我們就像剝洋蔥一樣，一層一層的去獲取我們想要的資訊。

直接上程式碼，如下圖所示：

如何利用BeautifulSoup抓取京東網商品資訊

通常URL編碼的方式是把需要編碼的字元轉化為%xx的形式，一般來說URL的編碼是基於UTF-8的，當然也有的於瀏覽器平臺有關。在Python的urllib庫中提供了quote方法，可以實現對URL的字串進行編碼，從而可以進入到對應的網頁中去。

之後利用美麗的湯去提取目標資訊，如商品的名字、連結、圖片和價格，具體的程式碼如下圖所示：

如何利用BeautifulSoup抓取京東網商品資訊

在本例中，有個地方需要注意，部分圖片的連結是空值，所以在提取的時候需要考慮到這個問題。其解決方法有兩個，其一是如果使用img['src']會有報錯產生，因為匹配不到對應值；但是使用get['src']就不會報錯，如果沒有匹配到，它會自動返回None。此外也可以利用try+except進行異常處理，如果匹配不到就pass，小夥伴們可以自行測試一下，這個程式碼測速過程在上圖中也有提及哈。使用get方法獲取資訊，是bs4中的一個小技巧，希望小夥伴們都可以學以致用噢~~~

最後得到的效果圖如下所示：

如何利用BeautifulSoup抓取京東網商品資訊

新鮮的狗糧出爐咯~~~

小夥伴們，有沒有發現利用BeautifulSoup來獲取目標資訊比正規表示式要簡單一些呢？
想學習更多Python網路爬蟲與資料探勘知識，可前往專業網站：http://pdcfighting.com/

Javascript抓取京東、淘寶商品資料
2023-10-19
JavaScript
Python爬蟲二：抓取京東商品列表頁面資訊
2018-06-26
Python爬蟲
Python大神利用正規表示式教你搞定京東商品資訊
2019-06-24
Python
京東商品詳情介面，京東商品優惠券介面，京東商品分析資料介面，京東API介面封裝程式碼
2023-04-07
API封裝
仿淘寶，京東多級地址選擇器
2018-04-01
如何為您的網路抓取選擇最佳代理伺服器？
2022-01-21
伺服器
京東商品圖片自動下載抓取 c# 爬蟲
2020-09-30
C#爬蟲
Python爬蟲爬取淘寶，京東商品資訊
2020-02-11
Python爬蟲
如何抓取網頁資訊？
2022-06-02
網頁
利用requests+BeautifulSoup爬取網頁關鍵資訊
2018-11-13
網頁
淘寶拼多多京東上貨必備API 商品詳情頁資料抓取 APP商品詳情原資料
2023-03-07
APIAPP
電商API介面：京東按關鍵字搜尋商品批次抓取資料爬蟲
2023-02-23
API爬蟲
如何選擇視訊伺服器
2022-06-06
伺服器
Python實現拼多多商品資訊抓取方法
2023-10-10
Python
2019京東商品短影片報告
2020-03-08
【京東】商品list列表採集+類目下的商品列表資料採集
2023-04-23
恆訊科技：網站伺服器的配置如何選擇呢？
2020-09-27
網站伺服器
如何選擇伺服器做網站
2023-02-02
伺服器網站
京東商品詳情資料採集介面（商品銷量，商品標題，商品優惠券，商品列表）程式碼展示
2023-03-08
網頁抓取選擇代理應該考慮什麼？
2022-06-17
網頁
Flutter 多規格商品選擇器核心工具 SKU
2019-03-11
Flutter
京東按圖搜尋京東商品（拍立淘） API 返回值說明
2023-03-08
API
網站建站該如何選擇伺服器？
2019-09-12
網站伺服器
解密京東千億商品系統核心架構
2018-10-10
解密架構
京東獲得店鋪的所有商品 API
2023-03-08
API
用java爬取京東商品頁注意點
2024-12-08
Java
京東APP百億級商品與車關係資料檢索實踐 | 京東雲技術團隊
2023-05-15
APP
全網商品搜尋|1688|Taobao|天貓|京東api介面展示示例
2023-05-10
API
樂訊通雲通訊：如何選擇物聯網路卡
2022-06-03
如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料
2019-05-15
PHP爬蟲亞馬遜
京東商品列表介面，商品銷量排序介面，商品價格排序介面程式碼展示
2023-02-27
排序
002---選擇器（標籤選擇器、類選擇器、id選擇器、偽類選擇器、萬用字元選擇器）
2018-04-18
字元
jQuery選擇器介紹：基本選擇器、層次選擇器、過濾選擇器、表單選擇器
2018-03-04
jQuery
在 C# 和 JavaScript 之間選擇進行網頁抓取
2024-09-22
C#JavaScript網頁
銀行內網培訓如何選擇伺服器？
2021-04-08
內網伺服器
建設網站如何選擇好的網站伺服器？
2021-01-12
網站伺服器
電商API分享：京東獲得JD商品詳情
2023-02-24
API
Daguerre Android 影像視訊選擇器
2019-02-26
Android

如何利用BeautifulSoup選擇器抓取京東網商品資訊

相關文章