關於資料科學的十本好書

機器之心發表於2016-05-02

1. Python Machine Learning

Python 是建議資料科學家應該學習的最頂尖的語言,掌握這種技能協商薪水時能得到更多。對任何資料科學家,特別是有抱負的資料科學家,或想要把 Python 作為技能掌握的開發者而言,這本書就是你的必讀書目。這本書將幫助讀者利用學習深度學習、資料整理、視覺化資料的 Python 開源文庫。它還能提供學習策略和實踐,從而改善、最佳化機器學習系統和演算法。


作者:Sebastian Raschka

價格:Kindle 版 22.39 美元,紙質版 40.47 美元


2. Data Analytics Made Accessible

這本書為讀者提供了資料分析的整體概況,所以對於想要在此領域學習更多的人,或是對需要一本初級讀物並理解相關技術如何工作的經理人來說,它都是一本好書。這本書在每章開篇提供了小案例研究,併為資料探勘技術和平臺提供了一個整體概覽。這本書也為了解 R 統計分析平臺提供輔導。


作者:Anil Maheshwari

價格:9.99 美元


3. Data Smart: Using Data Science to Transform Information Into Insight

這本書是由 MailChimp.com 首席資料科學家撰寫,集中論述瞭如何用微軟 Excel 從資料中獲得洞見,所以不要期待在這本書中學到 R 語言、Hadoop 或是 Apache Spark。但是在這本書裡你將學到如何掌握 Excel 從而在資料設定中得到更多資訊。


作者: John W. Foreman

價格:Kindle 版 22.99 美元,紙質版 27.99 美元


4. Data Science For Business

本書是基於紐約大學 MBA 課程編寫而成,作者也是教授這一課程的講者之一。它介紹了資料科學的基礎、並引導讀者獲取從資料中尋找商業價值需要的「資料分析思維(data-analytics thinking)」 。本書探討了如何以資料探勘技術和資料使用來獲得競爭優勢。


作者:Foster Provost 、 Tom Fawcett

價格:Kindle 版 21.49 美元,紙質版 37.99 美元


5. Hadoop: TheDefinitive Guide

想要學習 Hadoop?那這本書就是你需要的。這是出版於 2015 年的第四版。本版專門使用了 Haddop 2 並增加了新的章節描述 YARN 和 Hadoop 相關專案,比如  Parquet、Flume、Crunch、Spark。另外,本書覆蓋了 Hadoop 的基礎內容,MapReduce、HDFS 和 YARN。也闡述瞭如何建立並維護在這三個基本成分上執行 Haddop 叢集。本書討論的其他主要技術包括 Pig、Hive、Crunch、HBase 和 ZooKeeper 等。


作者:Tom White

價格:Kindle 版 24.99 美元,紙質版 32.62 美元


6. R Cookbook

這本指南提供了使用 R 語言快速進行資料分析的方法。它包含了 200 多個關於這一開源語言(統計學家們的首選)的方法。本書的書評員也是第一次接觸 R,並將這本書描述為為他們節省了大量時間的具有實踐意義的入門指南和參考工具。


作者:Paul Teetor

價格:Kindle 版 24.99 美元,紙質版 32.62 美元


7. Storytelling With Data

如果你不能用受眾群體覺得有趣的方式呈現給大家,那從資料中發現的關鍵點還有意義嗎?這種把資訊放到語境當中的技能也是非常有價值的能力。這本書就在以下三點上提供了竅門:如何將受眾的注意力引導到最重要的資料點,如何用恰當的視覺化方法交流資料,如何用故事化的方法將資訊傳遞給受眾。


作者:Cole Nussbaumer Knaflic

價格:Kindle 版 20.79 美元,紙質版 22.44 美元


8. Learning Spark

Hadoop 已然成為大資料的同義詞了,然而 Spark 卻是一個讓大資料工程發展更快的新型的、熱門技術。每一系列大資料書集都會包含一本關於 Spark 的書,而這一本則是由 Spark 的開發人員撰寫的。這本書涵蓋了分散式資料集、記憶體式快取、互動式 shell 和像 Spark SQL 和 MLib 那樣的嵌入式文庫,以及連線像 HDFS、Hive、JSON 和 S3的資料資源。


作者:Holden Karau,Andy Konwinski,Patrick Wendell 和 Matei Zaharia

價格:Kindle 版 21.49 美元,紙質版 34.26 美元


9. Weapons Of Math Destruction: How Big Data Increases Inequality And Threatens Democracy

這不是一本指導用書或入門書。相反,這本書關注的是:因為每個人都由同一套規則評判,演算法能否透過將人類從計算中解放出來,從而讓世界更加公平。但是作者也指出,對立方才是正確的。本書由前華爾街數量分析專家撰寫,將帶你瞭解演算法性質的未來對文化和經濟的影響。作者就我們現有的模式展開討論,他認為這個模式是不透明的,未校準的,無可抗衡的。甚至他們是錯。而且他堅持這些模式會增強歧視。舉例來說,如果一個窮學生因為他的郵政編碼資訊顯示他風險太高(還貸能力弱),那他就無法得到貸款(譯者:國外銀行卡會登記郵編,所以可以透過查詢郵編來得知相應的信用記錄),隨後他將無法得到這個能將他帶離貧困的教育機會。


作者:Cathy O'Neil

價格:Kindle 版 13.99 美元,精裝版 18.50 美元


10. Building Data Science Teams

這是一本由美國白宮國家科學與技術政策辦公室的首席資料科學家撰寫的免費電子書。本書闡釋了技能、觀點、工具和他認為成功定位資料科學團隊的流程。作者 DJ Patil 將他作為 Linkedin 資料科學團隊架構師的經歷帶到本書當中,描述了成為資料科學家的四個重要資質和建立「資料驅動(data driven)」組織意味著什麼。


作者:DJ Patil

價格:免費

相關文章