網頁資料抓取之噹噹網
所謂“網頁資料抓取”,也稱為網頁資料採集,Web資料採集等等,就是從我們平時通過瀏覽器檢視的web網頁上來提取需要的資料資訊,然後以結構化的方式儲存到CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式的檔案或資料庫中的過程。當然,這裡的資料提取過程,是藉助於計算機軟體技術來實現的,而不是通過人工的方式手動複製、貼上來實現的。也正因為如此,才使得從大型網站上採集需要的資料成為可能。
下面,就以筆者從噹噹網上採集資料的過程為例,來具體說一下網頁資料抓取的基本過程吧。
首先,我們要對目標網站的網頁結構進行分析,以確定該網站上的資料是否可以採集以及如何採集。
噹噹網是一個綜合性的網站,這裡我們就以圖書類資料為例來說明吧。經過檢視,我們找到了圖書資訊的目錄頁。圖書資訊是以多級目錄為結構來組織的,如下圖所示,圖片左側的就是圖書資訊的一級目錄:
因為很多網站出於資料保護的原因,都會限制資料顯示的數目,比如資料最多顯示100頁之類的,超過100頁的資料就不給顯示出來了。這樣的話,如果選擇進入的目錄級別越高,能夠得到的資料量就越少。所以,為了能夠得到儘可能多的資料,我們需要進入更底層的目錄,也就是更小的分類級,才能獲得更多的資料。
點開一級目錄,就可以進入二級圖書目錄,如下圖所示:
同樣,依次點選各級目錄,最後就能進入到最底層的目錄,這裡顯示著該目錄下的所有可顯示的資料項列表,我們可以稱之為底層列表頁,如圖所示:
當然,這個列表頁很可能也是分為多頁的,我們在進行資料採集時,需要遍歷每一頁的資料項,通過每個資料項上的連結,就可以進入到最終資料的頁面,我們稱之為詳細頁。如下圖:
到這裡,獲取詳細資料的路徑已經明確了。接下來,我們就要對詳細頁上的有用資料項進行分析,然後針對性地編寫資料採集程式,就可以抓取到我們感興趣的資料了。
下面是筆者對當當網圖書資料進行網頁資料抓取時編寫的程式的部分程式碼:
下面是筆者採集到的部分圖書資訊示例資料:
至此,一個完整的網頁資料抓取過程就完成了。
瞭解更多分析及資料抓取可檢視:
http://cloud.yisurvey.com:9081/html/d8acf20b-342f-4806-8dcc-5e6a8d00881d.html?ly=csdn
本文轉載自網際網路、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請聯絡我們刪除處理。
特別說明:本文旨在技術交流,請勿將涉及的技術用於非法用途,否則一切後果自負。如果您覺得我們侵犯了您的合法權益,請聯絡我們予以處理。
相關文章
- 噹噹網首頁——CSS程式碼CSS
- Python爬取噹噹網APP資料PythonAPP
- Java抓取網頁資料(原網頁+Javascript返回資料)網頁JavaScript
- 【爬蟲】網頁抓包工具--Fiddler爬蟲網頁
- 噹噹網開源Dubbox
- 爬取網頁後的抓取資料_3種抓取網頁資料方法網頁
- Wireshark資料抓包分析(網路協議篇)第1章網路協議抓包概述協議
- Debookee 8.1.2 網路資料抓包及分析工具
- Puppeteer爬取網頁資料網頁
- 網頁資料採集器網頁
- 從網頁上抓取資料網頁
- 網頁設計師 VS. 網頁開發者–資料資訊圖網頁
- 【爬蟲】網頁抓包工具--Charles的使用教程爬蟲網頁
- 大資料_資料採集_網頁01大資料網頁
- 使用tcpdump+wireshark抓包分析網路資料包TCP
- 資料提取之jsonpathJSON
- 資料庫選取之路資料庫
- Vue 全站快取之 vue-router-then :前後頁資料傳遞Vue快取
- 噹噹網財報:2013年Q1 噹噹網營收13.338億 淨虧7270萬元營收
- 網頁提取資料常用正則網頁
- 爬蟲抓取網頁資料原理爬蟲網頁
- Android利用Fiddler進行網路資料抓包Android
- Postman模擬瀏覽器網頁請求並獲取網頁資料Postman瀏覽器網頁
- 網頁抓取如何幫助資料分析?網頁
- Wireshark網路抓包
- 噹噹網財報:2013年Q3噹噹網營收達15.259億元 淨虧損2790萬元營收
- [網路爬蟲]使用node.js cheerio抓取網頁資料爬蟲Node.js網頁
- 學會XPath,輕鬆抓取網頁資料網頁
- python初學-爬取網頁資料Python網頁
- ASP資料庫網頁設計基礎資料庫網頁
- 網路抓包工具Wireshark
- Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQLPython爬蟲網頁資料庫MySql
- UI開發中的Unit test新工具:網頁抓屏比較UI網頁
- Python lxml :從網頁HTML/XML提取資料PythonXML網頁HTML
- 如何用Python爬資料?(一)網頁抓取Python網頁
- 簡單的網頁和資料庫備份網頁資料庫
- 網頁上非同步XML資料一種方法網頁非同步XML
- 結合LangChain實現網頁資料爬取LangChain網頁