大資料學習者需要了解的10本基礎書籍

weixin_34378922發表於2018-06-26

       真正的資料愛好者有很多需要閱讀的內容:大資料,機器學習,資料科學,資料探勘等。除了這些技術領域,還有一些特定的技術和語言需要你繼續研究:hadoop,Spark,Python,和R等等,還有無數實現自動化的工具等等,這些工具幾乎每天都會用到,這就需要你不斷的學習。幸運的是,以上提到的這些都不缺關於它們的書籍。

11097141-2c327c4b2dbb8808


  本文首先幫大家盤點幾本大資料相關的書籍,這些書都是亞馬遜上的暢銷排行榜上的,想要學習大資料的朋友,還可以加入這個技術交流群,可以多多瞭解大資料,還有學習資料領取:805017805,不定期分享乾貨:


  關於大資料

1、《Big Data》

  在大資料的背景下,我很少看到關於資料建模,資料層,資料處理需求分析以及資料架構和儲存實現問題。這本書卻提供了令人耳目一新的全面解決方案。

  但不可忽略的是,它也引入了大多數開發者並不熟悉的、困擾傳統架構的複雜性問題。本書將教你充分利用叢集硬體優勢的Lambda架構,以及專門用來捕獲和分析網路規模資料的新工具,來建立這些系統。


  關於Apache Hadoop

2、《Hadoop: The Definitive Guide》

  本書通過豐富的案例學習來解釋Hadoop的幕後機理,闡述了Hadoop如何解決現實生活中的具體問題。第3版覆蓋Hadoop的近期動態,包括新增的MapReduceAPI,以及MapReduce2及其靈活性更強的執行模型(YARN)。


  關於Apache Spark

3、《Learning Spark》

一本為Spark 初學者準備的書,它沒有過多深入實現細節,而是更多關注上層使用者的具體用法。不過,本書絕不僅僅限於Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。


  關於資料探勘

4、《資料探勘》

  本書是關於資料探勘領域的綜合概述,我認為這本書作為研究生的課程用書是很好的,或者作為參考書。本書前版曾被KDnuggets的讀者評選為很受歡迎的資料探勘專著,是一本可讀性很好的教材。

  它從資料庫角度全面系統地介紹資料探勘的概念、方法和技術以及技術研究進展,並重點關注近年來該領域重要和新的課題——資料倉儲和資料立方體技術,流資料探勘,社會化網路挖掘,空間、多媒體和其他複雜資料探勘。


5、《Mining of Massive Datasets》

  本書是在Anand Rajaraman和Jeff Ullman於史丹佛大學教授多年的一門季度課程的材料基礎上總結而成的。簡單來說,本書是關於資料探勘的。但是,本書主要關注極大規模資料的挖掘,也就是說這些資料大到無法在記憶體中存放。

  由於重點強調資料的規模,所以本書的例子大都來自Web本身或者Web上匯出的資料。另外,本書從演算法的角度來看待資料探勘,即資料探勘是將演算法應用於資料,而不是使用資料來“訓練”某種型別的機器學習引擎。

11097141-6fac43b71e1b9eb1


  免費電子書

  想從事資料科學,除了以上提及的那些書籍,還有很多這個領域的入門書籍,但是在你真正開始之前,你更應該對這個領域有一個廣泛的瞭解。

  下面我們還選了5本免費的電子書,可以幫助你更好的理解資料科學的全部內容,以及為你後續學習資料科學、大資料和資料分析做好準備。

1、《Big Data: The Numbers Game Deciphered》

  要想學習簡明扼要的關於大資料世界的概述,可以閱讀這本只有11頁的電子書,這本書以資料科學領域的發展為背景,讀完這本書,你將可以瞭解到:

  成為資料科學家應該具備的學歷

  資料科學領域需要具備的技術/非技術類的技能

  資料科學的學習資源

  書籍下載地址:http://www.simplilearn.com/the-numbers-game-deciphered-guide-pdf


2、《Top Programming Languages for a Data Scientist》

  程式設計是資料科學家必須具備的核心技術技能。通過這本詳細的指南,瞭解掌握哪些程式語言可以優先考慮入門資料科學。讀完這本書,你可以瞭解到

  資料科學職業的十大程式語言列表;

  這些程式語言的特點;

  如何將你掌握的技能應用於資料科學家。

  書籍下載地址:http://www.simplilearn.com/top-programming-languages-for-data-scientist-guide-pdf


3、《8 Essential Concepts of Big Data and Hadoop》

  Hadoop可以說是大資料家族中很重要的技術,稱得上是大資料革命的核心。通過閱讀這本便捷指南,可以瞭解你需要了解的關於Hadoop及其生態系統的所有資訊。

  書籍下載地址:http://www.simplilearn.com/big-data-and-hadoop-8-essential-concepts-guide-pdf


4、《Secret to Unlocking Tableau's Hidden Potential》

  Tableau使分析變得簡單易行,不僅適用於分析師,也適用於高層管理人員,IT專業人員以及其他所有人員。如果你正在尋找能夠充分發揮Tableau功能的技巧,以及有用的黑客技巧,這本電子書將會告訴你需要了解的內容。

  書籍地址:http://www.simplilearn.com/secret-to-unlocking-tableau-hidden-potential-guide-pdf


5、《Top 25 Interview Questions and Answers: Big Data Analysis》

  即便你是一位很厲害的資料專家,在求職面試中,你依然需要絞盡腦汁讓面試官對你印象深刻,否則你依然很難得到你一直夢寐以求的那個職位,這本書灰機了大資料面試最常問的問題和答案,相信可以助你一臂之力。

  書籍下載地址:http://www.simplilearn.com/top-big-data-analysis-interview-questions-answers-guide-pdf

相關文章