O'Reilly精品圖書推薦:資料演算法:Hadoop/Spark大資料處理技巧
書名:資料演算法:Hadoop/Spark大資料處理技巧
譯者:蘇金國 楊健康 等譯
國內出版社:中國電力出版社
出版時間:2016年10月
頁數:696
書號:978-7-5123-9594-7
原版書書名:Data Algorithms
原版書出版商:O'Reilly Media
序
破解基因組的奧祕實在是奧妙無窮,它把知識、思維方法和科技能力緊密融合在一起,將帶來變革性的發展。不過,這種變革還需要聯合和協同,而協同總少不了深層次的協作。從科學家到軟體工程師,從學術界到企業界,我們需要通力合作,朝著基因主導的未來穩步前進。
人們開發了大量資料演算法來分析大規模基因測序研究生成的龐大資訊,這些資料演算法的建立正是這個變革的關鍵。遺傳變異形態各異,可能相當複雜,也可能是全新的,這就要求以一種有效的方式將遺傳變異與個人的外在表現聯絡起來,才能建立並適當地應用臨床視點。我們需要提升能力,能夠針對更大的規模、跨種群地完成這個工作,這一點至關重要。這本書中提供的方法就像一個指南針,可以指導我們在這條路上順利前行。
MapReduce、Hadoop和Spark是幫助我們大規模使用基因測序以及儲存、處理和分析基因組“大資料”的關鍵技術。Mahmoud的這本書採用一種簡明而實用的方式介紹了這些內容。本書就像一盞燈,為資料科學家、軟體工程師以及臨床醫生照亮了破解基因組奧祕的道路,在這本書的幫助下,人類健康將進入一個講求精確、個性化和轉化的新紀元。
——Jay Flatley
Illumina公司CEO
內容簡介
如果你準備深入研究MapReduce框架來處理大資料集,這本書非常實用,通過提供豐富的演算法和工具,它會循序漸進地帶你探索MapReduce世界,用Apache Hadoop或Apache Spark構建分散式MapReduce應用時通常都需要用到這些演算法和工具。每一章分別提供一個例項來解決一個大規模計算問題,如構建推薦系統。你會了解如何用程式碼實現適當的MapReduce解決方案,而且可以在你的專案中具體應用這些解決方案。
本書介紹了很多基本設計模式、優化技術和資料探勘及機器學習解決方案,以解決生物資訊學、基因組學、統計和社交網路分析等領域的很多問題。這本書還概要介紹了MapReduce、Hadoop和Spark。
本書的主要內容包括:
完成超大量交易的購物籃分析。
資料探勘演算法(K-均值、KNN和樸素貝葉斯)。
使用超大基因組資料完成DNA和RNA測序。
樸素貝葉斯定理和馬爾可夫鏈實現資料和市場預測。
推薦演算法和成對文件相似性。
線性迴歸、Cox迴歸和皮爾遜(Pearson)相關分析。
等位基因頻率和DNA挖掘。
社交網路分析(推薦系統、三角形計數和情感分析)。
作者介紹
Mahmoud Parsian
電腦科學博士,是一位熱衷於實踐的軟體專家,作為開發人員、設計人員、架構師和作者,他有30多年的軟體開發經驗。目前領導著Illumina的大資料團隊,在過去15年間,他主要從事Java (伺服器端)、資料庫、MapReduce和分散式計算的有關工作。Mahmoud還著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等書(均由Apress出版)。
相關文章
- 資料演算法 Hadoop/Spark大資料處理---第十六章演算法HadoopSpark大資料
- 資料演算法 Hadoop/Spark大資料處理---第十二章演算法HadoopSpark大資料
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 每週一書《Spark與Hadoop大資料分析》分享!SparkHadoop大資料
- spark處理json資料DemoSparkJSON
- 分享Hadoop處理大資料工具及優勢Hadoop大資料
- 電影推薦系統資料預處理
- 五款精品資料視覺化工具推薦視覺化
- MySQL精品學習資源合集 | 含學習教程筆記、運維技巧、圖書推薦MySql筆記運維
- 大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink大資料框架HadoopSparkORM
- Spark大資料處理框架入門(單機版)Spark大資料框架
- Hadoop大資料分散式處理系統簡介Hadoop大資料分散式
- 【大資料 Spark】利用電影觀看記錄資料,進行電影推薦大資料Spark
- 大資料hadoop資料大資料Hadoop
- 好程式設計師大資料培訓分享Hadoop怎樣處理資料?程式設計師大資料Hadoop
- 《Hadoop+Spark大資料分析實戰》簡介HadoopSpark大資料
- 鐳射雷達常用的資料處理軟體推薦
- 處理圖片流資料
- 大資料崗位總結和相關書籍推薦大資料
- 5500元R7 2700搭GTX 1060製圖電腦配置推薦 偏向大資料處理需求大資料
- 剖析大資料平臺的資料處理大資料
- 大資料應用——資料探勘之推薦系統大資料
- Java中可以用的大資料推薦演算法Java大資料演算法
- 大資料常用處理框架大資料框架
- 醫療大資料Topic推薦-AMiner大資料
- Python資料處理(二):處理 Excel 資料PythonExcel
- Hadoop大資料部署Hadoop大資料
- 大資料hadoop工具大資料Hadoop
- java大資料處理:如何使用Java技術實現高效的大資料處理Java大資料
- 大資料處理的基本流程大資料
- 餘老師帶你學習大資料-Spark快速大資料處理第六章第一節Spark總體介紹大資料Spark
- 大資料Storm相比於Spark、Hadoop有哪些優勢(摘錄)大資料ORMSparkHadoop
- [譯] Python 與大資料:Airflow、 Jupyter Notebook 與 Hadoop 3、Spark、PrestoPython大資料AIHadoopSparkREST
- 大資料入門課程:Hadoop和spark的效能比較大資料HadoopSpark
- 資料處理
- Hadoop環境中管理大資料儲存八大技巧Hadoop大資料
- Spark在處理資料的時候,會將資料都載入到記憶體再做處理嗎?Spark記憶體
- 阿里巴巴資深大資料工程師:大資料處理實踐阿里大資料工程師
- 資料分析--資料預處理