O'Reilly精品圖書推薦:Spark高階資料分析

OReillyData發表於2016-10-31

書名:Spark高階資料分析

作者Sandy RyzaUri LasersonSean OwenJosh Wills 著

譯者:龔少成 譯

國內出版社:人民郵電出版社

出版時間:2015年11月

頁數:226

書號:978-7-115-40474-9

原版書書名:Advanced Analytics with Spark

原版書出版商:O'Reilly Media



編輯推薦


這是一本實用手冊,四位作者均是Cloudera公司的資料科學家,他們聯袂展示了利用Spark進行大規模資料分析的若干模式,而且每個模式都自成一體。他們將Spark、統計學方法和真實資料集結合起來,通過例項向讀者講述了怎樣解決分析型問題。

本書首先介紹了Spark及其生態系統,接著詳細介紹了將分類、協同過濾及異常檢查等常用技術應用於基因學、安全和金融領域的若干模式。如果你對機器學習和統計學有基本的瞭解,並且會用Java、Python或Scala程式設計,這些模式將有助於你開發自己的資料應用。

本書介紹了以下模式:

  1. 音樂推薦和Audioscrobbler資料集

  2. 用決策樹演算法預測森林植被

  3. 基於K均值聚類進行網路流量的異常檢測

  4. 基於潛在語義分析技術分析維基百科

  5. 用GraphX分析伴生網路

  6. 對紐約計程車軌跡進行空間和時間資料分析

  7. 通過蒙特卡羅模擬來評估金融風險

  8. 基因資料分析和BDG專案

  9. 用PySpark和Thunder分析神經影象資料



自從在加州大學伯克利分校創立Spark 專案起,我就時常心潮澎湃。不僅因為Spark 可以幫助人們快速構建並行系統,更因為Spark 幫助了越來越多的人使用大規模計算。因此看到這本介紹Spark 高階分析的書,我非常欣慰!該書由資料科學領域四位專家Sandy、Uri、Sean 和Josh 攜手打造。四位作者研習Spark 已久,他們在本書中跟讀者分享了關於Spark 的大量精彩內容,同時本書的案例部分同樣出眾! 

對於這本書,我最鍾愛的是它強調案例,而且這些案例都源於現實資料和實際應用。找到一個像樣的、能在膝上型電腦上執行的大資料案例已經很難,更遑論十個了。但本書作者做到了!作者為大家準備好了一切,只等你在Spark 中執行它們。更難能可貴的是,作者不僅討論了核心演算法,更傾心於資料準備和模型調優,沒有這些工作,實際專案中就無法得到好的結果。認真研讀此書,你應該可以吸收這些案例中的概念並直接將其運用在自己的專案中! 

大資料處理無疑是當今計算領域最激動人心的方向之一,發展非常迅猛,新思想層出不窮。願本書能幫助你在這個嶄新的領域中揚帆啟航! 

——Matei Zaharia 

Databricks 公司CTO 兼Apache Spark 專案副總裁


作者簡介


Sandy Ryza

是Cloudera公司資深資料科學家,Apache Spark專案的活躍程式碼貢獻者。最近領導了Cloudera公司的Spark開發工作。他還是Hadoop專案管理委員會委員。

Uri Laserson

是Cloudera公司資深資料科學家,專注於Hadoop生態系統中的Python部分。

Sean Owen

是Cloudera公司EMEA地區的資料科學總監,也是Apache Spark專案的程式碼提交者。他創立了基於Spark、Spark Streaming和Kafka的Hadoop實時大規模學習專案Oryx(之前稱為Myrrix)。

Josh Wills

是Cloudera公司的高階資料科學總監,Apache Crunch專案的發起者和副總裁。

640?wx_fmt=png

相關文章