機器學習-資料清洗

騰訊雲加社群發表於2019-03-02

原文網址 : https://flycode.co/archives/265233

機器學習

歡迎大家前往騰訊雲+社群，獲取更多騰訊海量技術實踐乾貨哦~

本文由brzhang發表

資料清洗

首先，為何需要對資料進行清洗

資料清洗的工作絕壁是非常枯燥的，做資料研究的的人絕對無法避開這個環節，其根本原因是因為我們從各種渠道拿到的資料可能會出現：

1、不合理的資料，你比如，樣本中有些人的年齡超過了120歲，樓層的高度達到了1000層，以及其他的一些非常不合理的場景。

2、錯誤的型別，你比如，樣例中，幾乎所有的資料都是整形，然而，有一些是字串型別，如果不進行處理，將這些資料直接餵給演算法，一般情況下是要崩潰的。

3、計算機對於處理字串型別比較吃力，有時候，需要我們將他轉化為數字型別，這樣就設計到一個對映關係，比如，樣例性別，【男，女】，我們可以轉化為1，2，房屋的型別【單間，一房一廳，二房一廳，三房一廳，商鋪】可以對應的列舉出來，比如我在處理房屋朝向上的示例

#提取房屋的朝向
def parse_orientation(row):
    if '朝西南' in row:
        return 1
    elif '朝東北' in row:
        return 2
    elif '朝東' in row:
        return 3
    elif '朝南' in row:
        return 4
    elif '朝西北' in row:
        return 5
    elif '朝北' in row:
        return 6
    elif '朝東南' in row:
        return 7
    elif '朝南北' in row:
        return 8
    elif '朝西' in row:
        return 9
    else:
        return 10
複製程式碼

等等等等，我想說的是絕對還有很多你意想不到的場景，需要你耐心的打磨資料，將蒐集到的原始資料，清洗成為可用的資料。

資料清洗需要掌握哪些黑科技

通常我們拿到的資料資料都可以簡化為表格模型，無用你是xsl也好，csv亦或json陣列也好，都可以利用pandas來讀取，讀取之後，接下來的工作基本上就是藉助在pandas的一些api來做資料清洗工作了，如下，我讀取了一份房價資訊的資料表，這份資料當然是我自己根據上一篇文章，利用scrapy做了一個爬蟲爬取的咯。

jupyter筆記

為了讓我們能夠更好的玩資料清洗，我也不吝嗇的貢獻出了一份非常全面的pandas的操作Cheatsheet一份,以及後面你一定會用到一個萬能的CheatSheet。

來來，簡單的瞭解一下pandas的一些常用的api了,舉例就用：

示例資料一行

1、取子集常用操作

取子集

其中，loc是支援按照列名字串的方式來取子集，iloc支援的是使用陣列索引（從0開始）的方式來取子集，通常，逗號前面是行相關的一些條件限制，逗號右邊則是列相關的限制。比如，我取得

我就取前兩列

2、處理空白資料行

處理空白資料

這種就很簡單愉快了，一個api就可以刪除或者填充有空白資料的樣本了。

這個就不演示了，因為我是爬蟲爬取資料，所以在爬取的過程中，我已經對資料進行了一些基礎的處理，程式控制不可能出現空白資料了，所以，我也是建議，自己寫爬蟲去獲取資料，這些減輕資料清洗環節的壓力。

3、apply系列

apply其實有比較多兄弟，比如applymap,map,他們的能力各有不同，總的來說就是apply()是一種讓函式作用於列或者行操作，applymap()是一種讓函式作用於DataFrame每一個元素的操作，而map是一種讓函式作用於Series每一個元素的操作，如下所示，我這裡對ege列進行處理了一了，將數字和文字歸一化為數字。

apply示例

實際上，這個操作完全可用map來做：

df['ege'] = df['ege'].map(parse_house_age)
df.head(5)
複製程式碼

結果完全一樣，因為我們只取了一列。

資料清洗比較高階的方式，使用各種圖表

1、使用散點圖

房屋總面積對應總價圖

2、房價熱力值圖：

房價區間熱力圖

圖描述了房間分佈區間，可以清洗看出一些問題。

3、頻率直方圖幫助我們迅速找到一些特例獨行的豬，因為他出現的次數少嘛，不得不讓人懷疑這種資料的真實性。

利用直方圖快速找出毛刺點

ok，總的來說，這個過程需要開動自己的腦經，把你拿到的原始資料，慢慢慢慢的，變成可以給你下面演算法需要的資料。

相關閱讀 【每日課程推薦】機器學習實戰！快速入門線上廣告業務及CTR相應知識

此文已由作者授權騰訊雲+社群釋出，更多原文請點選

搜尋關注公眾號「雲加社群」，第一時間獲取技術乾貨，關注後回覆1024 送你一份技術課程大禮包！

八個機器學習資料清洗
2019-06-19
機器學習
機器學習中資料清洗的藝術
2019-08-23
機器學習
資料的採集，清洗，資料機器自動標註及轉化為深度學習格式
2018-08-16
深度學習
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 3 —— 資料獲取與清洗
2018-12-04
機器學習筆記
機器學習大資料
2019-05-10
機器學習大資料
機器學習-- 資料轉換
2018-11-17
機器學習
機器學習之清理資料
2020-06-16
機器學習
做資料分析需要學習機器學習嗎？
2020-01-15
機器學習
機器學習：探索資料和資料預處理
2020-12-13
機器學習
機器學習一：資料預處理
2019-02-27
機器學習
機器學習筆記——資料集分割
2018-09-25
機器學習筆記
機器學習基礎-資料降維
2019-05-02
機器學習
33個機器學習常用資料集
2019-04-19
機器學習
分散式機器學習常用資料集
2021-11-28
分散式機器學習
tensorflow資料清洗
2019-11-02
機器學習 # 為什麼機器學習要求資料是獨立同分布的？
2020-11-26
機器學習
機器學習資源
2019-02-16
機器學習
專注深度學習模型精度和效能提升、資料採集清洗
2019-10-30
深度學習模型
清洗資料，我習慣用這 7 步！
2020-03-21
python機器學習速成|1|資料匯入
2018-10-17
Python機器學習
機器學習之資料集的劃分
2020-06-14
機器學習
具身智慧和機器人學習資料
2024-11-26
機器人
機器學習筆記---資料預處理
2022-04-30
機器學習筆記
【機器學習】資料準備--python爬蟲
2022-06-22
機器學習Python爬蟲
資料科學和機器學習面試問題
2019-02-28
資料科學機器學習面試
Python學習手冊（入門&爬蟲&資料分析&機器學習&深度學習）
2021-12-20
Python爬蟲機器學習深度學習
學習筆記(30):Python資料清洗實戰-Excel檔案讀寫
2020-02-21
筆記PythonExcel
「雜談」GitHub上最全的機器學習和深度學習資料
2019-08-06
Github機器學習深度學習
《Python機器學習手冊：從資料預處理到深度學習》
2019-12-17
Python機器學習深度學習
【機器學習】機器學習簡介
2018-11-29
機器學習
資料清洗和資料處理
2020-03-03
Python機器學習 5個資料科學家案例解析
2018-10-16
Python機器學習資料科學
機器學習導圖系列（1）：資料處理
2019-04-06
機器學習
祕籍 | 機器學習資料集網址大全
2019-01-27
機器學習
.NET資料探勘與機器學習開源框架
2024-10-20
機器學習框架
大資料機器學習演算法概論
2018-04-12
大資料機器學習演算法
解析機器學習中的資料漂移問題
2023-02-06
機器學習
機器學習、深度學習資源總結
2018-07-08
機器學習深度學習

機器學習-資料清洗

資料清洗

首先，為何需要對資料進行清洗

資料清洗需要掌握哪些黑科技

資料清洗比較高階的方式，使用各種圖表

相關文章