O'Reilly精品圖書推薦:資料演算法:Hadoop/Spark大資料處理技巧
書名:資料演算法:Hadoop/Spark大資料處理技巧
譯者:蘇金國 楊健康 等譯
國內出版社:中國電力出版社
出版時間:2016年10月
頁數:696
書號:978-7-5123-9594-7
原版書書名:Data Algorithms
原版書出版商:O'Reilly Media
序
破解基因組的奧祕實在是奧妙無窮,它把知識、思維方法和科技能力緊密融合在一起,將帶來變革性的發展。不過,這種變革還需要聯合和協同,而協同總少不了深層次的協作。從科學家到軟體工程師,從學術界到企業界,我們需要通力合作,朝著基因主導的未來穩步前進。
人們開發了大量資料演算法來分析大規模基因測序研究生成的龐大資訊,這些資料演算法的建立正是這個變革的關鍵。遺傳變異形態各異,可能相當複雜,也可能是全新的,這就要求以一種有效的方式將遺傳變異與個人的外在表現聯絡起來,才能建立並適當地應用臨床視點。我們需要提升能力,能夠針對更大的規模、跨種群地完成這個工作,這一點至關重要。這本書中提供的方法就像一個指南針,可以指導我們在這條路上順利前行。
MapReduce、Hadoop和Spark是幫助我們大規模使用基因測序以及儲存、處理和分析基因組“大資料”的關鍵技術。Mahmoud的這本書採用一種簡明而實用的方式介紹了這些內容。本書就像一盞燈,為資料科學家、軟體工程師以及臨床醫生照亮了破解基因組奧祕的道路,在這本書的幫助下,人類健康將進入一個講求精確、個性化和轉化的新紀元。
——Jay Flatley
Illumina公司CEO
內容簡介
如果你準備深入研究MapReduce框架來處理大資料集,這本書非常實用,通過提供豐富的演算法和工具,它會循序漸進地帶你探索MapReduce世界,用Apache Hadoop或Apache Spark構建分散式MapReduce應用時通常都需要用到這些演算法和工具。每一章分別提供一個例項來解決一個大規模計算問題,如構建推薦系統。你會了解如何用程式碼實現適當的MapReduce解決方案,而且可以在你的專案中具體應用這些解決方案。
本書介紹了很多基本設計模式、優化技術和資料探勘及機器學習解決方案,以解決生物資訊學、基因組學、統計和社交網路分析等領域的很多問題。這本書還概要介紹了MapReduce、Hadoop和Spark。
本書的主要內容包括:
完成超大量交易的購物籃分析。
資料探勘演算法(K-均值、KNN和樸素貝葉斯)。
使用超大基因組資料完成DNA和RNA測序。
樸素貝葉斯定理和馬爾可夫鏈實現資料和市場預測。
推薦演算法和成對文件相似性。
線性迴歸、Cox迴歸和皮爾遜(Pearson)相關分析。
等位基因頻率和DNA挖掘。
社交網路分析(推薦系統、三角形計數和情感分析)。
作者介紹
Mahmoud Parsian
電腦科學博士,是一位熱衷於實踐的軟體專家,作為開發人員、設計人員、架構師和作者,他有30多年的軟體開發經驗。目前領導著Illumina的大資料團隊,在過去15年間,他主要從事Java (伺服器端)、資料庫、MapReduce和分散式計算的有關工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等書(均由Apress出版)。
相關文章
- O'Reilly精品圖書推薦:Spark高階資料分析Spark
- O'Reilly精品圖書推薦:大資料猩球:海量資料處理實踐指南大資料
- [O'Reilly精品圖書推薦]社交媒體大資料分析大資料
- O'Reilly精品圖書推薦:資料科學入門資料科學
- [O'Reilly精品圖書推薦]大資料倫理:平衡風險與創新大資料
- O'Reilly精品圖書推薦:Python網路資料採集Python
- [O'Reilly精品圖書推薦]Hadoop生態系統Hadoop
- 資料那些書——O'Reilly
- 資料演算法 Hadoop/Spark大資料處理---第十六章演算法HadoopSpark大資料
- 資料演算法 Hadoop/Spark大資料處理---第十二章演算法HadoopSpark大資料
- hadoop 大資料精品視訊資料Hadoop大資料
- 大資料處理之道書評大資料
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 每週一書《Spark與Hadoop大資料分析》分享!SparkHadoop大資料
- 五款精品資料視覺化工具推薦視覺化
- MySQL精品學習資源合集 | 含學習教程筆記、運維技巧、圖書推薦MySql筆記運維
- 電影推薦系統資料預處理
- O'Reilly Report: 現代製造業的大資料分析大資料
- O’Reilly Radar:大資料時代的數字神經系統大資料
- spark處理json資料DemoSparkJSON
- Spark大資料處理框架入門(單機版)Spark大資料框架
- Apache Spark:大資料處理統一引擎ApacheSpark大資料
- 【大資料 Spark】利用電影觀看記錄資料,進行電影推薦大資料Spark
- 分享Hadoop處理大資料工具及優勢Hadoop大資料
- Hadoop Archives 小資料處理HadoopHive
- MySQL 處理非法資料薦MySql
- 基於Spark的大資料實時處理開課Spark大資料
- 使用R和Apache Spark處理大規模資料 [session]ApacheSparkSession
- Hadoop與Spark等資料處理系統哪個是最好的?HadoopSpark
- Hadoop大資料分散式處理系統簡介Hadoop大資料分散式
- 大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink大資料框架HadoopSparkORM
- 資料處理,會“說話”的大機器——資料資訊圖
- 大資料hadoop資料大資料Hadoop
- 推薦演算法學習資料演算法
- O'Reilly圖書程式碼字型(附排版要求)
- 流式大資料處理的三種框架:Storm,Spark和Samza大資料框架ORMSpark
- 好程式設計師大資料培訓分享Hadoop怎樣處理資料?程式設計師大資料Hadoop
- 大資料崗位總結和相關書籍推薦大資料