O'Reilly精品圖書推薦:資料演算法:Hadoop/Spark大資料處理技巧

OReillyData發表於2017-01-26

書名:資料演算法:Hadoop/Spark大資料處理技巧

作者Mahmoud Parsian 著

譯者:蘇金國 楊健康 等譯

國內出版社:中國電力出版社

出版時間:2016年10月

頁數:696

書號:978-7-5123-9594-7

原版書書名:Data Algorithms

原版書出版商:O'Reilly Media




破解基因組的奧祕實在是奧妙無窮,它把知識、思維方法和科技能力緊密融合在一起,將帶來變革性的發展。不過,這種變革還需要聯合和協同,而協同總少不了深層次的協作。從科學家到軟體工程師,從學術界到企業界,我們需要通力合作,朝著基因主導的未來穩步前進。

人們開發了大量資料演算法來分析大規模基因測序研究生成的龐大資訊,這些資料演算法的建立正是這個變革的關鍵。遺傳變異形態各異,可能相當複雜,也可能是全新的,這就要求以一種有效的方式將遺傳變異與個人的外在表現聯絡起來,才能建立並適當地應用臨床視點。我們需要提升能力,能夠針對更大的規模、跨種群地完成這個工作,這一點至關重要。這本書中提供的方法就像一個指南針,可以指導我們在這條路上順利前行。

MapReduce、Hadoop和Spark是幫助我們大規模使用基因測序以及儲存、處理和分析基因組“大資料”的關鍵技術。Mahmoud的這本書採用一種簡明而實用的方式介紹了這些內容。本書就像一盞燈,為資料科學家、軟體工程師以及臨床醫生照亮了破解基因組奧祕的道路,在這本書的幫助下,人類健康將進入一個講求精確、個性化和轉化的新紀元。

——Jay Flatley

Illumina公司CEO



內容簡介


如果你準備深入研究MapReduce框架來處理大資料集,這本書非常實用,通過提供豐富的演算法和工具,它會循序漸進地帶你探索MapReduce世界,用Apache Hadoop或Apache Spark構建分散式MapReduce應用時通常都需要用到這些演算法和工具。每一章分別提供一個例項來解決一個大規模計算問題,如構建推薦系統。你會了解如何用程式碼實現適當的MapReduce解決方案,而且可以在你的專案中具體應用這些解決方案。

本書介紹了很多基本設計模式、優化技術和資料探勘及機器學習解決方案,以解決生物資訊學、基因組學、統計和社交網路分析等領域的很多問題。這本書還概要介紹了MapReduce、Hadoop和Spark。

本書的主要內容包括:

  • 完成超大量交易的購物籃分析。

  • 資料探勘演算法(K-均值、KNN和樸素貝葉斯)。

  • 使用超大基因組資料完成DNA和RNA測序。

  • 樸素貝葉斯定理和馬爾可夫鏈實現資料和市場預測。

  • 推薦演算法和成對文件相似性。

  • 線性迴歸、Cox迴歸和皮爾遜(Pearson)相關分析。

  • 等位基因頻率和DNA挖掘。

  • 社交網路分析(推薦系統、三角形計數和情感分析)。


作者介紹


Mahmoud Parsian

電腦科學博士,是一位熱衷於實踐的軟體專家,作為開發人員、設計人員、架構師和作者,他有30多年的軟體開發經驗。目前領導著Illumina的大資料團隊,在過去15年間,他主要從事Java (伺服器端)、資料庫、MapReduce和分散式計算的有關工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等書(均由Apress出版)。

640?wx_fmt=png


相關文章