新書上市 | 史上最系統全面的預處理教程來了!

圖靈小悅發表於2021-02-07

“3 天了,我還在做資料預處理。”

“第 1 步就卡住了,資料預處理也太難了吧!”

“媽呀,弄了我幾個月的問題,原因竟然是我預處理資料的時候方法不好。”

“腦子空空如也,此時此刻,為啥沒有人告訴我,原來我可以死在資料預處理上。”

……

網上隨手搜一下,就會發現對資料預處理的抱怨比比皆是。圍繞資料預處理的關鍵詞有兩個——“重要”“難”。很多資料分析相關的圖書和文章這樣介紹預處理:

  • 預處理的工作量佔資料分析任務的 80%
  • 預處理是資料分析中必不可少的工程

預處理之所以重要,是因為它會對後續的資料分析質量、模型預測精度產生極大影響。我們在實際專案中拿到的資料往往是雜亂無章的(資料缺失、資料不一致、資料重複等),要想應用恰當的分析方法得到理想結果,就必須通過一些方法提高資料質量,而這就是預處理的工作。

預處理如此重要,市面上相關圖書卻少之又少,原因在於預處理是一項難以總結的技術,其知識不夠體系。這就導致我們只能得到一些碎片式的資訊,無法系統瞭解。專業資料之匱乏,可能也是這本《資料預處理從入門到實戰:基於SQL、R、Python》| 1 本書掌握大資料、人工智慧時代需要的資料預處理技術,KDD CUP 2015亞軍得主多行業實戰經驗總結,原版一上市就迅速進入日亞計算機類圖書銷量排行榜 No1,並在 3 個月內重印 4 次的原因之一。

如果你對資料預處理感興趣,或者正在受其困擾,不妨讀一讀這本書。

本書結構

(覆蓋各種型別的資料預處理任務,系統而全面)

(覆蓋各種型別的資料預處理任務,系統而全面。)

本書特色

1. 54 道例題,涵蓋常見資料預處理技術

採用問題驅動式結構,先丟擲常見預處理任務,引導讀者思考如何實現。像這樣帶著問題學習,可以大大提高學習效果,讓理解更深入。

(本書例題示例)

(本書例題示例)

2. 3 種語言實現對比,把握每種語言的特長

分別用 SQL、R、Python 對比解決相同的案例問題,可以瞭解各語言在處理各種預處理問題時有哪些優缺點,從而根據情況選擇合適的語言,提升預處理效率。

enter image description here enter image description here enter image description here

3. 同時給出一般程式碼與理想程式碼,優化處理的關鍵一目瞭然

對於每道例題,都同時給出用 SQL、R、Python 這 3 種語言所寫的一般程式碼與理想程式碼,並對程式碼中的關鍵點進行說明。讀者不僅可以邊閱讀邊思考如何修改一般程式碼,還可以通過與理想程式碼的對比明白如何優化程式碼。

enter image description here

4. 通過 3 個綜合的實戰案例,帶領讀者體驗真實的預處理過程

案例之一

(案例之一)

(針對案例首先給出預處理步驟,再分步驟詳細講解。)

(針對案例首先給出預處理步驟,再分步驟詳細講解。)

讀者物件

適合新手資料科學家和對資料分析、資料探勘感興趣的讀者閱讀。

初學者可以先瀏覽目錄,選擇感興趣的章節仔細閱讀,以在自己的業務中靈活應用;有一定經驗的讀者通過閱讀本書,可以查漏補缺,進一步提高預處理效率。

任何工作都有輝煌的瞬間,例如足球運動員進球的瞬間,廚師大火收汁後菜餚出鍋的瞬間,專家顧問做報告的瞬間。而對於資料科學家,最輝煌的大概就是有了奇妙的發現或建立出高精度模型的那個瞬間。輝煌的瞬間是否會到來,與前一階段準備工作的好壞密切相關。不同於那一刻輝煌的瞬間,準備的過程往往平淡無奇且漫長,但成敗也正是在這一階段決定的。如果你的目標是成為一流的資料科學家,那就跟隨這本書,把平淡無奇的預處理做到極致吧!

相關文章