學懂分析,玩轉大資料

weixin_34146805發表於2016-05-30

整理了一下最近圖靈出版的大資料相關的書,有2本R語言+2本基於Python語言環境+1本Spark+1本資料清洗,最後還有一本大眾閱讀的經典好評暢銷的資料分析。

1、示例講解如何用R語言玩轉資料——《R語言入門與實踐

530449-f9200850c9cbca59.jpg

作者:Garrett Grolemund

譯者:馮凌秉

■ 將R程式設計所需的方方面面巧妙融合在三個精心挑選的示例中,助你輕鬆掌握R語言

■ 跟隨世界一流的RStudio培訓師掌握寶貴的程式設計技能

《R語言入門與實踐》涵蓋R語言程式設計的方方面面,內容涉及R物件的型別、R的記號體系和環境系統、自定義函式、if else語句、for迴圈、S3類、R的包系統以及除錯工具等。本書還通過示例演示如何進行向量化程式設計,從而對程式碼進行提速並最大化地發揮R的潛能。

“如果你想跟世界一流的RStudio培訓師學習R程式設計,卻沒有機會與其當面交流,那麼這本書就是不二之選。讀這本書於我而言是一種享受,希望你也有同感。”

——Hadley Wickham,RStudio首席科學家,《R包開發》(R Packages)作者

《R語言入門與實踐》還沒上市,預計6月上市。

2、一本全面而細緻的R指南——《R語言實戰(第2版)》

530449-7b089d6c8c2e5621.jpg

作者:Robert I. Kabacoff

譯者:王小寧,劉擷芯,黃俊文

■ 用R輕鬆實現資料探勘、資料視覺化

■ 從實際資料分析出發,全面掌握R程式設計

■ 新增預測性分析、簡化多變數資料等近200頁內容

《R語言實戰(第2版)》從解決實際問題入手,儘量跳脫統計學的理論闡述來討論R語言及其應用,講解清晰透澈,極具實用性。作者不僅高度概括了R語言的強大功能,展示了各種實用的統計示例,而且對於難以用傳統方法分析的凌亂、不完整和非正態的資料也給出了完備的處理方法。第2版新增6章內容,涵蓋時間序列、聚類分析、分類、高階程式設計、建立包和建立動態報告等,並分別詳細介紹瞭如何使用ggplot2和lattice進行高階繪圖。通讀本書,你將全面掌握使用R語言進行資料分析、資料探勘的技巧,領略大量探索和展示資料的圖形功能,並學會如何撰寫動態報告,從而更加高效地進行分析與溝通。

3、Google資料科學家作品——資料科學入門

530449-ad2b4b62b1b5c51a.jpg

作者:Joel Grus

譯者:高蓉,韓波

■ 資料科學基本知識的重量級讀本

《資料科學入門》基於易於理解且具有資料科學相關的豐富的庫的Python語言環境,從零開始講解資料科學工作。具體內容包括:Python速成,視覺化資料,線性代數,統計,概率,假設與推斷,梯度下降法,如何獲取資料,k近鄰法,樸素貝葉斯演算法,等等。作者藉助大量具體例子以及資料探勘、統計學、機器學習等領域的重要概念,詳細展示了什麼是資料科學。書中涵蓋的所有程式碼和資料都可以在GitHub上下載。

4、全面剖析網路資料採集技術——Python網路資料採集

530449-6191616df3d27b05.jpg

作者:Ryan Mitchell

譯者:陶俊傑,陳小莉

■ 用簡單高效的Python語言,展示網路資料採集常用手段,剖析網路表單安全措施,完成大資料採集任務!

《Python網路資料採集》適合熟悉Python的程式設計師、安全專業人士、網路管理員閱讀。書中不僅介紹了網路資料採集的基本原理,還深入探討了更高階的主題,比如分析原始資料、用網路爬蟲測試網站等。此外,書中還提供了詳細的程式碼示例,以幫助你更好地理解書中的內容。

5、Spark實戰指南——《Spark最佳實踐

530449-20ed24a54800ec23.jpg

作者:陳歡,林世飛

■ UCloud季昕華、Databricks連城,阿里胡熠,棒米科技武澤勝,騰訊肖磊\靳志輝\徐羽等聯袂推薦!

■ 騰訊專家首次分享Spark最佳實踐

■ 基於真實資料,用案例分析全面解讀大資料應用設計

■ 騰訊資深研發者的Spark實踐,揭祕廣告和推薦系統核心技術

《Spark最佳實踐》全書共分8章。前4章介紹Spark的部署、工作機制和核心,後4章分別通過實戰專案介紹Spark SQL、Spark Streaming、Spark GraphX和Spark MLib功能模組。此外,本書詳細介紹了常見的實戰問題,比如大資料環境下的配置設定、程式調優等。本書附帶的一鍵安裝指令碼,更能為初學者提供很大幫助。

6、資料清洗入門與實踐——《乾淨的資料

530449-798a8d720150f6c2.jpg

作者:Megan Squire

譯者:任政委

■ 掌握高效資料清洗方法,為資料探勘提供便利,讓使用者更好地體驗大資料價值!

《乾淨的資料:資料清洗入門與實踐》從檔案格式、資料型別、字元編碼等基本概念講起,通過真實的示例,探討如何提取和清洗關係型資料庫、網頁檔案和PDF文件中的資料。最後提供了兩個真實的專案,讓讀者將所有資料清洗技術付諸實踐,完成整個資料科學過程。

7、精益系列叢書——《精益資料分析》

530449-e6ca3e58c686a4c6.jpg

作者:Alistair Croll,Benjamin Yoskovitz

譯者:韓知白,王鶴達

■ 《精益創業》作者埃裡克·萊斯主編

《精益資料分析》圍繞精益創業展開討論,融合了精益創業法、客戶開發、商業模式畫布和敏捷/ 持續整合的精華。本書匯聚了100多位創始人、投資人、內部創業者和創新者的成功創業經驗,呈現了30多個極具價值的案例分析,可以為各階段的創業者提供行為準則。

相關文章