[O'Reilly精品圖書推薦]Hadoop生態系統

OReillyData發表於2017-03-24

書名:Hadoop生態系統

作者Kevin SittoMarshall Presser 著

譯者:陳新, 唐曉 譯

國內出版社:中國電力出版社

出版時間:2016年10月

頁數:109

書號:978-7-5123-9598-5

原版書書名:Field Guide to Hadoop

原版書出版商:O'Reilly Media



內容介紹


如果你的組織即將開始進入大資料的世界,那麼可能不僅需要決定Apache Hadoop這個平臺是否適合使用,還需要決定Hadoop中哪些元件最適合完成你的任務。本書將幫助你更容易地完成這項工作。本書將Hadoop的生態系統分解為一個個簡略的、容易理解的小段內容,以便讀者可以快速理解Hadoop專案、子專案及其相關技術是如何一起工作的。

本書每一章都介紹了不同的主題(例如核心技術或資料傳輸),並且解釋了為什麼特定元件適用或不適用特定的需求。對於資料處理來說,使用Hadoop是一個全新的挑戰,但如果有了這本便利的參考書,你將很容易領會使用Hadoop的精妙所在。

主要包括如下主題:

  • 核心技術。Hadoop分散式檔案系統(HDFS)、MapReduce、YARN和Spark。

  • 資料庫和資料管理。Cassandra、HBase、MongoDB和Hive。

  • 序列化。Avro、JSON和Parquet。

  • 管理和監視。Puppet、Chef、Zookeeper和Oozie。

  • 分析輔助。Pig、Mahout和MLLib。

  • 資料傳輸。Scoop、Flume、distcp和Storm。

  • 安全、訪問控制和審計。Sentry、Kerberos和Knox。

  • 雲端計算和虛擬化。Serengeti、Docker和Whirr。



作者介紹


Kevin Sitto是Pivotal Software公司的領域解決方案工程師,他為使用者提供諮詢服務,幫助使用者理解和描述他們的大資料需求。

他和妻子以及兩個孩子住在Maryland,在沒有撰寫關於大資料書籍的時候,他經常享受制作自釀的啤酒的樂趣。

Marshall Presser是Pivotal Software公司的領域技術長,住在弗吉尼傑州麥克萊恩市。除了幫助使用者使用Greenplum資料庫解決複雜的分析問題之外,他領導了Hadoop Vitual 領域團隊,工作關注於將Hadoop與關係型資料庫整合。

在來到Pivotal公司(之前是Greenplum公司)之前,他在Oracle工作了12年,專門從事於高可用性、業務連續性、叢集、並行資料庫技術、災難恢復和大規模資料庫系統。Marshall之前還為許多硬體廠商實現叢集和其他並行體系架構。他的背景包括平行計算和作業系統/編譯器開發,同時還是健康醫療機構、金融服務機構、聯邦政府和州政府的私人顧問。

Marshall獲得了Pennsylvania大學的數學學士學位和金融與統計學碩士學位,同時還獲取了倫敦Imperial大學的計算機理科碩士。


640?wx_fmt=png


相關文章