爬蟲中資料清洗的選擇

SilenceHL發表於2021-06-12

原文網址 : https://learnku.com/articles/58066

前言

最近身邊幾個學習爬蟲的朋友問我，獲取到資料之後不知道如何選擇資料清洗的方式，我給他們的需求做出瞭解答，發現還是有很多人都難在了這一步，今天分享一下我自己的思路。

獲取的資料型別

這一步其實是最開始的一步，當我們分析需要獲取的資料並去測試獲取的時候就會知道，目前比較常見的是HTML格式、JSON格式或者混合的格式。

HTML格式

當我們獲得的資料為HTML格式時，可以看看我們需要的資料是什麼樣子的，一般情況下是使用Xpath根據節點去獲取對應的資料，但是如果Xpath提取很複雜或者提取不到想要的資料，可以先通過Xpath獲取一個較大範圍的資料，再利用正規表示式去進一步資料清洗。

JSON格式

JSON格式就比較簡單了一般可以直接通過json庫的.load()方法反序列化就可以了，需要注意的是，反序列化後資料型別可能不是我們想要的這時候我們再通過型別轉換來幫助我們獲取想要的資料。

混合型別

假如混合型別中存在類JSON格式的，我們可以先通過正規表示式將該段提取出來，然後通過json庫的.load()方法反序列化獲取。如果情況比較複雜，也不用慌，先觀察資料的格式，可以將獲取到的資料拿出來，重新排版觀察後再進一步處理。

總結

資料清洗主要是考察我們對資料的觀察力與邏輯，只要掌握基本辦法然後多嘗試幾次就能掌握到規律。拿到資料後不要慌張，如果一開始不能清晰地判斷，就將資料重新排版再看看，一定要先觀察清楚在動手。Xpath是一定要學會的，許多爬蟲框架中也都是通過Xpath來進行資料清洗的。

本作品採用《CC 協議》，轉載必須註明作者和本文連結

如何選擇爬蟲工具？
2022-05-17
爬蟲
5款優秀的資料清洗工具任你選擇
2021-10-15
爬蟲第一章資料提取與清洗策略
2020-11-10
爬蟲
Python爬蟲之CSS選擇器
2021-09-11
Python爬蟲CSS
為什麼選擇Python做爬蟲
2023-11-28
Python爬蟲
爬蟲代理IP產品如何選擇
2021-07-14
爬蟲
為什麼爬蟲要選擇住宅代理？
2022-06-06
爬蟲
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
為什麼很多人入門選擇Python爬蟲?
2020-04-02
Python爬蟲
為什麼爬蟲語言選擇Python而不是Java？
2022-07-12
爬蟲PythonJava
Python爬蟲之路-chrome在爬蟲中的使用
2021-01-04
Python爬蟲Chrome
Python爬蟲之路-selenium在爬蟲中的使用
2021-01-04
Python爬蟲
爬蟲資料採集的工作原理
2022-06-29
爬蟲
爬蟲原理與資料抓取
2020-12-17
爬蟲
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
大資料與中國的戰略選擇
2019-01-04
大資料
python爬蟲總是爬不到資料，你需要解決反爬蟲了
2020-06-26
Python爬蟲
輕鬆利用Python爬蟲爬取你想要的資料
2021-09-10
Python爬蟲
PostgreSQL：資料庫的選擇
2020-11-30
SQL資料庫
【0基礎學爬蟲】爬蟲基礎之資料儲存
2023-04-14
爬蟲
大資料之路 ——（一）演算法建模中的資料清洗
2021-08-05
大資料演算法
盤點爬蟲語言為何大多選擇Python而不是Java
2022-12-27
爬蟲PythonJava
爬蟲資料是如何收集和整理的？
2022-11-24
爬蟲
tensorflow資料清洗
2019-11-02
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
如何保障爬蟲高效穩定爬取資料？
2022-05-27
爬蟲
機器學習中資料清洗的藝術
2019-08-23
機器學習
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
企業資料爬蟲專案
2018-10-05
爬蟲
Python【爬蟲實戰】提取資料
2020-11-17
Python爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
爬蟲-使用lxml解析html資料
2021-01-20
爬蟲XMLHTML
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Golang爬蟲，Go&&正則爬取資料，槓桿的
2022-01-13
Golang爬蟲
爬取資料時防止爬蟲被限制的四種方法
2022-06-07
爬蟲
新手小白的爬蟲神器-無程式碼高效爬取資料
2021-01-01
爬蟲
爬蟲使用http代理有什麼作用？該怎麼選擇http代理？
2022-02-16
爬蟲HTTP
為什麼爬蟲語言大多都會選擇Python而不是Java？
2023-02-22
爬蟲PythonJava

爬蟲中資料清洗的選擇

前言

獲取的資料型別

HTML格式

JSON格式

混合型別

總結

相關文章