網頁資料抓取之噹噹網

大資料苦行僧—yisurvey123發表於2020-12-21

原文網址 : https://blog.csdn.net/weixin_52026996/article/details/111483797

所謂“網頁資料抓取”，也稱為網頁資料採集，Web資料採集等等，就是從我們平時通過瀏覽器檢視的web網頁上來提取需要的資料資訊，然後以結構化的方式儲存到CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式的檔案或資料庫中的過程。當然，這裡的資料提取過程，是藉助於計算機軟體技術來實現的，而不是通過人工的方式手動複製、貼上來實現的。也正因為如此，才使得從大型網站上採集需要的資料成為可能。

下面，就以筆者從噹噹網上採集資料的過程為例，來具體說一下網頁資料抓取的基本過程吧。

首先，我們要對目標網站的網頁結構進行分析，以確定該網站上的資料是否可以採集以及如何採集。

噹噹網是一個綜合性的網站，這裡我們就以圖書類資料為例來說明吧。經過檢視，我們找到了圖書資訊的目錄頁。圖書資訊是以多級目錄為結構來組織的，如下圖所示，圖片左側的就是圖書資訊的一級目錄：
在這裡插入圖片描述
因為很多網站出於資料保護的原因，都會限制資料顯示的數目，比如資料最多顯示100頁之類的，超過100頁的資料就不給顯示出來了。這樣的話，如果選擇進入的目錄級別越高，能夠得到的資料量就越少。所以，為了能夠得到儘可能多的資料，我們需要進入更底層的目錄，也就是更小的分類級，才能獲得更多的資料。

點開一級目錄，就可以進入二級圖書目錄，如下圖所示：
在這裡插入圖片描述
同樣，依次點選各級目錄，最後就能進入到最底層的目錄，這裡顯示著該目錄下的所有可顯示的資料項列表，我們可以稱之為底層列表頁，如圖所示：

當然，這個列表頁很可能也是分為多頁的，我們在進行資料採集時，需要遍歷每一頁的資料項，通過每個資料項上的連結，就可以進入到最終資料的頁面，我們稱之為詳細頁。如下圖：

在這裡插入圖片描述
到這裡，獲取詳細資料的路徑已經明確了。接下來，我們就要對詳細頁上的有用資料項進行分析，然後針對性地編寫資料採集程式，就可以抓取到我們感興趣的資料了。

下面是筆者對當當網圖書資料進行網頁資料抓取時編寫的程式的部分程式碼：
在這裡插入圖片描述
下面是筆者採集到的部分圖書資訊示例資料：

至此，一個完整的網頁資料抓取過程就完成了。

瞭解更多分析及資料抓取可檢視：
http://cloud.yisurvey.com:9081/html/d8acf20b-342f-4806-8dcc-5e6a8d00881d.html?ly=csdn
本文轉載自網際網路、僅供學習交流，內容版權歸原作者所有，如涉作品、版權和其他問題請聯絡我們刪除處理。
特別說明：本文旨在技術交流，請勿將涉及的技術用於非法用途，否則一切後果自負。如果您覺得我們侵犯了您的合法權益，請聯絡我們予以處理。

Python爬取噹噹網APP資料
2020-10-21
PythonAPP
【爬蟲】網頁抓包工具--Fiddler
2018-12-19
爬蟲網頁
Debookee 8.1.2 網路資料抓包及分析工具
2023-11-01
資料提取之jsonpath
2020-11-08
JSON
Puppeteer爬取網頁資料
2019-03-22
網頁
【爬蟲】網頁抓包工具--Charles的使用教程
2018-12-19
爬蟲網頁
使用tcpdump+wireshark抓包分析網路資料包
2018-12-16
TCP
Vue 全站快取之 vue-router-then ：前後頁資料傳遞
2018-08-01
Vue快取
網頁提取資料常用正則
2018-09-05
網頁
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Postman模擬瀏覽器網頁請求並獲取網頁資料
2024-04-03
Postman瀏覽器網頁
網頁抓取如何幫助資料分析？
2022-02-11
網頁
Wireshark網路抓包
2022-01-07
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
學會XPath，輕鬆抓取網頁資料
2023-11-30
網頁
Python lxml ：從網頁HTML/XML提取資料
2019-07-04
PythonXML網頁HTML
抓包Http/Https/Other資料包（小迪網路安全筆記~
2024-12-04
HTTP筆記
Go抓取網頁資料並存入MySQL和返回json資料
2019-02-16
Go網頁MySqlJSON
網路抓包工具Wireshark
2018-06-29
網頁可讀內容抽取 API 資料介面
2024-08-31
網頁API
結合LangChain實現網頁資料爬取
2024-07-18
LangChain網頁
Python 爬取網頁資料的兩種方法
2023-02-15
Python網頁
如何抓取網頁資訊？
2022-06-02
網頁
噹噹狸智慧顯微鏡網友：讓孩子“發現”世界
2022-06-15
推薦一款網路資料抓包分析工具：Debookee 7 Mac版
2020-08-27
Mac
2019Q2網頁遊戲資料包告
2019-10-15
網頁遊戲
「無程式碼」高效的爬取網頁資料神器
2021-10-18
網頁
用Jupyter—Notebook爬取網頁資料例項14
2020-12-01
網頁
用Jupyter—Notebook爬取網頁資料例項12
2020-12-01
網頁
網路流量抓包庫 gopacket
2021-03-25
Go
網頁提示連線資料庫失敗是怎麼回事(網站資料庫連線失敗)
2024-09-23
網頁資料庫網站
網站主網頁修改，如何更新網站主頁內容
2024-12-06
網站網頁
Python中使用mechanize庫抓取網頁上的表格資料
2024-03-15
Python網頁
開啟網頁顯示資料庫連線出錯
2024-10-11
網頁資料庫
(一)如何使用 Parsel 和 XPath 進行網頁資料提取
2024-08-03
網頁
強大的網頁資料庫管理工具Adminer
2024-06-14
網頁資料庫
zf_利用feapder中的selenium網頁爬取資料
2024-06-03
網頁

網頁資料抓取之噹噹網

相關文章