O'Reilly精品圖書推薦:Spark高階資料分析
書名:Spark高階資料分析
作者:Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills 著
譯者:龔少成 譯
國內出版社:人民郵電出版社
出版時間:2015年11月
頁數:226
書號:978-7-115-40474-9
原版書書名:Advanced Analytics with Spark
原版書出版商:O'Reilly Media
編輯推薦
這是一本實用手冊,四位作者均是Cloudera公司的資料科學家,他們聯袂展示了利用Spark進行大規模資料分析的若干模式,而且每個模式都自成一體。他們將Spark、統計學方法和真實資料集結合起來,通過例項向讀者講述了怎樣解決分析型問題。
本書首先介紹了Spark及其生態系統,接著詳細介紹了將分類、協同過濾及異常檢查等常用技術應用於基因學、安全和金融領域的若干模式。如果你對機器學習和統計學有基本的瞭解,並且會用Java、Python或Scala程式設計,這些模式將有助於你開發自己的資料應用。
本書介紹了以下模式:
音樂推薦和Audioscrobbler資料集
用決策樹演算法預測森林植被
基於K均值聚類進行網路流量的異常檢測
基於潛在語義分析技術分析維基百科
用GraphX分析伴生網路
對紐約計程車軌跡進行空間和時間資料分析
通過蒙特卡羅模擬來評估金融風險
基因資料分析和BDG專案
用PySpark和Thunder分析神經影象資料
序
自從在加州大學伯克利分校創立Spark 專案起,我就時常心潮澎湃。不僅因為Spark 可以幫助人們快速構建並行系統,更因為Spark 幫助了越來越多的人使用大規模計算。因此看到這本介紹Spark 高階分析的書,我非常欣慰!該書由資料科學領域四位專家Sandy、Uri、Sean 和Josh 攜手打造。四位作者研習Spark 已久,他們在本書中跟讀者分享了關於Spark 的大量精彩內容,同時本書的案例部分同樣出眾!
對於這本書,我最鍾愛的是它強調案例,而且這些案例都源於現實資料和實際應用。找到一個像樣的、能在膝上型電腦上執行的大資料案例已經很難,更遑論十個了。但本書作者做到了!作者為大家準備好了一切,只等你在Spark 中執行它們。更難能可貴的是,作者不僅討論了核心演算法,更傾心於資料準備和模型調優,沒有這些工作,實際專案中就無法得到好的結果。認真研讀此書,你應該可以吸收這些案例中的概念並直接將其運用在自己的專案中!
大資料處理無疑是當今計算領域最激動人心的方向之一,發展非常迅猛,新思想層出不窮。願本書能幫助你在這個嶄新的領域中揚帆啟航!
——Matei Zaharia
Databricks 公司CTO 兼Apache Spark 專案副總裁
作者簡介
Sandy Ryza
是Cloudera公司資深資料科學家,Apache Spark專案的活躍程式碼貢獻者。最近領導了Cloudera公司的Spark開發工作。他還是Hadoop專案管理委員會委員。
Uri Laserson
是Cloudera公司資深資料科學家,專注於Hadoop生態系統中的Python部分。
Sean Owen
是Cloudera公司EMEA地區的資料科學總監,也是Apache Spark專案的程式碼提交者。他創立了基於Spark、Spark Streaming和Kafka的Hadoop實時大規模學習專案Oryx(之前稱為Myrrix)。
Josh Wills
是Cloudera公司的高階資料科學總監,Apache Crunch專案的發起者和副總裁。
相關文章
- [O'Reilly精品圖書推薦]社交媒體大資料分析大資料
- O'Reilly精品圖書推薦:資料科學入門資料科學
- O'Reilly精品圖書推薦:資料演算法:Hadoop/Spark大資料處理技巧演算法HadoopSpark大資料
- O'Reilly精品圖書推薦:Python網路資料採集Python
- [O'Reilly精品圖書推薦]Hadoop生態系統Hadoop
- O'Reilly精品圖書推薦:大資料猩球:海量資料處理實踐指南大資料
- [O'Reilly精品圖書推薦]大資料倫理:平衡風險與創新大資料
- 資料那些書——O'Reilly
- O'Reilly圖書程式碼字型(附排版要求)
- 五款精品資料視覺化工具推薦視覺化
- O'Reilly Report: 現代製造業的大資料分析大資料
- MySQL精品學習資源合集 | 含學習教程筆記、運維技巧、圖書推薦MySql筆記運維
- 學習 Qt 程式設計的好書精品推薦!QT程式設計
- [圖書] Golang 優質開源圖書推薦Golang
- 網站相關圖書推薦網站
- [翻譯]關於電子書的思考 by Tim O'Reilly
- 好書推薦《資料血緣分析原理與實踐 》:資料治理神兵利器
- 《java 進階之路》 上--推薦書籍Java
- 《Java 進階之路》 下--推薦書籍Java
- O'Reilly副總裁Mike Hendrickson:技術圖書出版的未來(圖靈訪談)圖靈
- Go+雲原生高階開發工程師進階路線及資料推薦Go工程師
- 【好書推薦】推薦一份從入門到進階的機器學習書單機器學習
- 機器學習和資料探勘的推薦書單機器學習
- 圖書推薦之希望圖靈引進圖靈
- 史上最全的Java進階書籍推薦Java
- Python入門進階推薦書單Python
- 分析快、易操作的資料分析工具推薦
- O’Reilly Radar:大資料時代的數字神經系統大資料
- 推薦一本技術類書籍:Unix環境高階程式設計程式設計
- Google:未來之鏡–推薦圖書Go
- 高階NumPy知識圖譜-《利用Python進行資料分析》Python
- [翻譯]停止SOPA——by Tim O'Reilly
- 「演算法與資料結構」從入門到進階整理推薦書單演算法資料結構
- 薦書 | 《利用Python進行資料分析》Python
- 199IT推薦圖書:O2O:移動網際網路時代的商業革命–[平裝]
- 推薦:Oracle資料庫DBA原文經典書籍Oracle資料庫
- 有獎活動:寫書評贏O'Reilly Velocity大會門票
- O'Reilly動物書《學習正規表示式》之封面解讀