網頁資料抓取之噹噹網
所謂“網頁資料抓取”,也稱為網頁資料採集,Web資料採集等等,就是從我們平時通過瀏覽器檢視的web網頁上來提取需要的資料資訊,然後以結構化的方式儲存到CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式的檔案或資料庫中的過程。當然,這裡的資料提取過程,是藉助於計算機軟體技術來實現的,而不是通過人工的方式手動複製、貼上來實現的。也正因為如此,才使得從大型網站上採集需要的資料成為可能。
下面,就以筆者從噹噹網上採集資料的過程為例,來具體說一下網頁資料抓取的基本過程吧。
首先,我們要對目標網站的網頁結構進行分析,以確定該網站上的資料是否可以採集以及如何採集。
噹噹網是一個綜合性的網站,這裡我們就以圖書類資料為例來說明吧。經過檢視,我們找到了圖書資訊的目錄頁。圖書資訊是以多級目錄為結構來組織的,如下圖所示,圖片左側的就是圖書資訊的一級目錄:
因為很多網站出於資料保護的原因,都會限制資料顯示的數目,比如資料最多顯示100頁之類的,超過100頁的資料就不給顯示出來了。這樣的話,如果選擇進入的目錄級別越高,能夠得到的資料量就越少。所以,為了能夠得到儘可能多的資料,我們需要進入更底層的目錄,也就是更小的分類級,才能獲得更多的資料。
點開一級目錄,就可以進入二級圖書目錄,如下圖所示:
同樣,依次點選各級目錄,最後就能進入到最底層的目錄,這裡顯示著該目錄下的所有可顯示的資料項列表,我們可以稱之為底層列表頁,如圖所示:
當然,這個列表頁很可能也是分為多頁的,我們在進行資料採集時,需要遍歷每一頁的資料項,通過每個資料項上的連結,就可以進入到最終資料的頁面,我們稱之為詳細頁。如下圖:
到這裡,獲取詳細資料的路徑已經明確了。接下來,我們就要對詳細頁上的有用資料項進行分析,然後針對性地編寫資料採集程式,就可以抓取到我們感興趣的資料了。
下面是筆者對當當網圖書資料進行網頁資料抓取時編寫的程式的部分程式碼:
下面是筆者採集到的部分圖書資訊示例資料:
至此,一個完整的網頁資料抓取過程就完成了。
瞭解更多分析及資料抓取可檢視:
http://cloud.yisurvey.com:9081/html/d8acf20b-342f-4806-8dcc-5e6a8d00881d.html?ly=csdn
本文轉載自網際網路、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請聯絡我們刪除處理。
特別說明:本文旨在技術交流,請勿將涉及的技術用於非法用途,否則一切後果自負。如果您覺得我們侵犯了您的合法權益,請聯絡我們予以處理。
相關文章
- Python爬取噹噹網APP資料PythonAPP
- 【爬蟲】網頁抓包工具--Fiddler爬蟲網頁
- Debookee 8.1.2 網路資料抓包及分析工具
- 資料提取之jsonpathJSON
- Puppeteer爬取網頁資料網頁
- 【爬蟲】網頁抓包工具--Charles的使用教程爬蟲網頁
- 使用tcpdump+wireshark抓包分析網路資料包TCP
- Vue 全站快取之 vue-router-then :前後頁資料傳遞Vue快取
- 網頁提取資料常用正則網頁
- 爬蟲抓取網頁資料原理爬蟲網頁
- Postman模擬瀏覽器網頁請求並獲取網頁資料Postman瀏覽器網頁
- 網頁抓取如何幫助資料分析?網頁
- Wireshark網路抓包
- Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQLPython爬蟲網頁資料庫MySql
- 如何用Python爬資料?(一)網頁抓取Python網頁
- 學會XPath,輕鬆抓取網頁資料網頁
- Python lxml :從網頁HTML/XML提取資料PythonXML網頁HTML
- 抓包Http/Https/Other資料包(小迪網路安全筆記~HTTP筆記
- Go抓取網頁資料並存入MySQL和返回json資料Go網頁MySqlJSON
- 網路抓包工具Wireshark
- 網頁可讀內容抽取 API 資料介面網頁API
- 結合LangChain實現網頁資料爬取LangChain網頁
- Python 爬取網頁資料的兩種方法Python網頁
- 如何抓取網頁資訊?網頁
- 噹噹狸智慧顯微鏡 網友:讓孩子“發現”世界
- 推薦一款網路資料抓包分析工具:Debookee 7 Mac版Mac
- 2019Q2網頁遊戲資料包告網頁遊戲
- 「無程式碼」高效的爬取網頁資料神器網頁
- 用Jupyter—Notebook爬取網頁資料例項14網頁
- 用Jupyter—Notebook爬取網頁資料例項12網頁
- 網路流量抓包庫 gopacketGo
- 網頁提示連線資料庫失敗是怎麼回事(網站資料庫連線失敗)網頁資料庫網站
- 網站主網頁修改,如何更新網站主頁內容網站網頁
- Python中使用mechanize庫抓取網頁上的表格資料Python網頁
- 開啟網頁顯示資料庫連線出錯網頁資料庫
- (一)如何使用 Parsel 和 XPath 進行網頁資料提取網頁
- 強大的網頁資料庫管理工具Adminer網頁資料庫
- zf_利用feapder中的selenium網頁爬取資料網頁