O'Reilly精品圖書推薦：Spark高階資料分析

OReillyData發表於2016-10-31

Spark

書名：Spark高階資料分析

作者：Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills 著

譯者：龔少成譯

國內出版社：人民郵電出版社

出版時間：2015年11月

頁數：226

書號：978-7-115-40474-9

原版書書名：Advanced Analytics with Spark

原版書出版商：O'Reilly Media

編輯推薦

這是一本實用手冊，四位作者均是Cloudera公司的資料科學家，他們聯袂展示了利用Spark進行大規模資料分析的若干模式，而且每個模式都自成一體。他們將Spark、統計學方法和真實資料集結合起來，通過例項向讀者講述了怎樣解決分析型問題。

本書首先介紹了Spark及其生態系統，接著詳細介紹了將分類、協同過濾及異常檢查等常用技術應用於基因學、安全和金融領域的若干模式。如果你對機器學習和統計學有基本的瞭解，並且會用Java、Python或Scala程式設計，這些模式將有助於你開發自己的資料應用。

本書介紹了以下模式：

音樂推薦和Audioscrobbler資料集
用決策樹演算法預測森林植被
基於K均值聚類進行網路流量的異常檢測
基於潛在語義分析技術分析維基百科
用GraphX分析伴生網路
對紐約計程車軌跡進行空間和時間資料分析
通過蒙特卡羅模擬來評估金融風險
基因資料分析和BDG專案
用PySpark和Thunder分析神經影象資料

序

自從在加州大學伯克利分校創立Spark 專案起，我就時常心潮澎湃。不僅因為Spark 可以幫助人們快速構建並行系統，更因為Spark 幫助了越來越多的人使用大規模計算。因此看到這本介紹Spark 高階分析的書，我非常欣慰！該書由資料科學領域四位專家Sandy、Uri、Sean 和Josh 攜手打造。四位作者研習Spark 已久，他們在本書中跟讀者分享了關於Spark 的大量精彩內容，同時本書的案例部分同樣出眾！

對於這本書，我最鍾愛的是它強調案例，而且這些案例都源於現實資料和實際應用。找到一個像樣的、能在膝上型電腦上執行的大資料案例已經很難，更遑論十個了。但本書作者做到了！作者為大家準備好了一切，只等你在Spark 中執行它們。更難能可貴的是，作者不僅討論了核心演算法，更傾心於資料準備和模型調優，沒有這些工作，實際專案中就無法得到好的結果。認真研讀此書，你應該可以吸收這些案例中的概念並直接將其運用在自己的專案中！

大資料處理無疑是當今計算領域最激動人心的方向之一，發展非常迅猛，新思想層出不窮。願本書能幫助你在這個嶄新的領域中揚帆啟航！

——Matei Zaharia

Databricks 公司CTO 兼Apache Spark 專案副總裁

作者簡介

Sandy Ryza

是Cloudera公司資深資料科學家，Apache Spark專案的活躍程式碼貢獻者。最近領導了Cloudera公司的Spark開發工作。他還是Hadoop專案管理委員會委員。

Uri Laserson

是Cloudera公司資深資料科學家，專注於Hadoop生態系統中的Python部分。

Sean Owen

是Cloudera公司EMEA地區的資料科學總監，也是Apache Spark專案的程式碼提交者。他創立了基於Spark、Spark Streaming和Kafka的Hadoop實時大規模學習專案Oryx（之前稱為Myrrix）。

Josh Wills

是Cloudera公司的高階資料科學總監，Apache Crunch專案的發起者和副總裁。

640?wx_fmt=png

［O'Reilly精品圖書推薦］社交媒體大資料分析
2017-03-17
大資料
O'Reilly精品圖書推薦：資料科學入門
2017-02-17
資料科學
O'Reilly精品圖書推薦：資料演算法：Hadoop/Spark大資料處理技巧
2017-01-26
演算法HadoopSpark大資料
O'Reilly精品圖書推薦：Python網路資料採集
2017-02-10
Python
［O'Reilly精品圖書推薦］Hadoop生態系統
2017-03-24
Hadoop
O'Reilly精品圖書推薦：大資料猩球：海量資料處理實踐指南
2016-10-18
大資料
［O'Reilly精品圖書推薦］大資料倫理：平衡風險與創新
2017-03-10
大資料
資料那些書——O'Reilly
2014-07-05
O'Reilly圖書程式碼字型（附排版要求）
2013-06-19
五款精品資料視覺化工具推薦
2021-12-22
視覺化
O'Reilly Report: 現代製造業的大資料分析
2016-10-19
大資料
MySQL精品學習資源合集 | 含學習教程筆記、運維技巧、圖書推薦
2022-07-26
MySql筆記運維
學習 Qt 程式設計的好書精品推薦！
2018-12-13
QT程式設計
[圖書] Golang 優質開源圖書推薦
2020-07-10
Golang
網站相關圖書推薦
2018-03-11
網站
[翻譯]關於電子書的思考 by Tim O'Reilly
2011-11-28
好書推薦《資料血緣分析原理與實踐》：資料治理神兵利器
2024-07-05
《java 進階之路》上--推薦書籍
2017-12-04
Java
《Java 進階之路》下--推薦書籍
2017-12-04
Java
O'Reilly副總裁Mike Hendrickson：技術圖書出版的未來（圖靈訪談）
2011-12-21
圖靈
Go+雲原生高階開發工程師進階路線及資料推薦
2024-04-06
Go工程師
【好書推薦】推薦一份從入門到進階的機器學習書單
2021-03-27
機器學習
機器學習和資料探勘的推薦書單
2015-10-26
機器學習
圖書推薦之希望圖靈引進
2017-04-20
圖靈
史上最全的Java進階書籍推薦
2018-11-06
Java
Python入門進階推薦書單
2017-06-24
Python
分析快、易操作的資料分析工具推薦
2023-01-09
O’Reilly Radar：大資料時代的數字神經系統
2012-09-05
大資料
推薦一本技術類書籍：Unix環境高階程式設計
2020-04-23
程式設計
Google：未來之鏡–推薦圖書
2016-11-25
Go
高階NumPy知識圖譜-《利用Python進行資料分析》
2020-07-29
Python
[翻譯]停止SOPA——by Tim O'Reilly
2012-01-19
「演算法與資料結構」從入門到進階整理推薦書單
2019-01-09
演算法資料結構
薦書 | 《利用Python進行資料分析》
2019-05-13
Python
199IT推薦圖書：O2O:移動網際網路時代的商業革命–[平裝]
2013-02-26
推薦：Oracle資料庫DBA原文經典書籍
2012-09-27
Oracle資料庫
有獎活動：寫書評贏O'Reilly Velocity大會門票
2014-06-17
O'Reilly動物書《學習正規表示式》之封面解讀
2013-02-21

O'Reilly精品圖書推薦：Spark高階資料分析

相關文章