網頁資料抓取之噹噹網

大資料苦行僧—yisurvey123發表於2020-12-21

所謂“網頁資料抓取”,也稱為網頁資料採集,Web資料採集等等,就是從我們平時通過瀏覽器檢視的web網頁上來提取需要的資料資訊,然後以結構化的方式儲存到CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式的檔案或資料庫中的過程。當然,這裡的資料提取過程,是藉助於計算機軟體技術來實現的,而不是通過人工的方式手動複製、貼上來實現的。也正因為如此,才使得從大型網站上採集需要的資料成為可能。

下面,就以筆者從噹噹網上採集資料的過程為例,來具體說一下網頁資料抓取的基本過程吧。

首先,我們要對目標網站的網頁結構進行分析,以確定該網站上的資料是否可以採集以及如何採集。

噹噹網是一個綜合性的網站,這裡我們就以圖書類資料為例來說明吧。經過檢視,我們找到了圖書資訊的目錄頁。圖書資訊是以多級目錄為結構來組織的,如下圖所示,圖片左側的就是圖書資訊的一級目錄:
在這裡插入圖片描述
因為很多網站出於資料保護的原因,都會限制資料顯示的數目,比如資料最多顯示100頁之類的,超過100頁的資料就不給顯示出來了。這樣的話,如果選擇進入的目錄級別越高,能夠得到的資料量就越少。所以,為了能夠得到儘可能多的資料,我們需要進入更底層的目錄,也就是更小的分類級,才能獲得更多的資料。

點開一級目錄,就可以進入二級圖書目錄,如下圖所示:
在這裡插入圖片描述
同樣,依次點選各級目錄,最後就能進入到最底層的目錄,這裡顯示著該目錄下的所有可顯示的資料項列表,我們可以稱之為底層列表頁,如圖所示:
在這裡插入圖片描述
當然,這個列表頁很可能也是分為多頁的,我們在進行資料採集時,需要遍歷每一頁的資料項,通過每個資料項上的連結,就可以進入到最終資料的頁面,我們稱之為詳細頁。如下圖:

在這裡插入圖片描述
到這裡,獲取詳細資料的路徑已經明確了。接下來,我們就要對詳細頁上的有用資料項進行分析,然後針對性地編寫資料採集程式,就可以抓取到我們感興趣的資料了。

下面是筆者對當當網圖書資料進行網頁資料抓取時編寫的程式的部分程式碼:
在這裡插入圖片描述
下面是筆者採集到的部分圖書資訊示例資料:
在這裡插入圖片描述
至此,一個完整的網頁資料抓取過程就完成了。

瞭解更多分析及資料抓取可檢視:
http://cloud.yisurvey.com:9081/html/d8acf20b-342f-4806-8dcc-5e6a8d00881d.html?ly=csdn
本文轉載自網際網路、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請聯絡我們刪除處理。
特別說明:本文旨在技術交流,請勿將涉及的技術用於非法用途,否則一切後果自負。如果您覺得我們侵犯了您的合法權益,請聯絡我們予以處理。

相關文章