使用R和Apache Spark處理大規模資料 [session]
講師:Xiaoyong Zhu (Microsoft)
11:15–11:55 Friday, 2017-07-14
資料科學&高階分析 (Data science & advanced analytics)
地點: 多功能廳5B+C
觀眾水平: 中級
必要預備知識
A basic understanding of R, Spark, and machine learning
您將學到什麼
Learn how to use R to analyze terabytes of data
描述
R是一個流行的用於資料分析的資料科學工具。然而它有不少的缺陷,比如它的記憶體使用問題以及單執行緒的設計。
本演講:
我們會介紹微軟R伺服器的設計原則和架構,以及它和Apache Spark的整合。
演示如何使用R伺服器來進行在Apache Spark上的可擴充套件的機器學習,以及使用R語言來分析T位元組級資料。
講師介紹
Xiaoyong Zhu (Microsoft)
Xiaoyong Zhu is a program manager at Microsoft focusing on scalable machine learning and advanced analytics.
Strata Data Conference北京站正在報名中,點選閱讀原文可登入會議網站。
注意:早期票價優惠期截止到6月9日,儘快註冊以確保留位。
相關文章
- Apache Spark:大資料處理統一引擎ApacheSpark大資料
- 在Apache Hadoop和Spark上加速大資料加密 [session]ApacheHadoopSpark大資料加密Session
- Vaex助力高效處理大規模資料集
- 三種大資料流處理框架選擇比較:Apache Kafka流、Apache Spark流和Apache Flink - quora大資料框架ApacheKafkaSpark
- Serverless 在大規模資料處理的實踐Server
- 使用Spark和Cassandra進行資料處理(一)Spark
- 使用RabbitMQ訊息佇列來處理大規模的資料流MQ佇列
- 使用Apache Hudi構建大規模、事務性資料湖Apache
- 使用Apache Spark和Apache Hudi構建分析資料湖ApacheSpark
- 流式大資料處理的三種框架:Storm,Spark和Samza大資料框架ORMSpark
- Apache SeaTunnel資料處理引擎適配的演進和規劃Apache
- R缺失資料處理
- 大規模資料處理實戰-蔡元楠-極客時間
- 處理海量資料的模式MapReduce,大規模資料集的並行運算模式並行
- Spark大資料處理框架入門(單機版)Spark大資料框架
- 三個大資料處理框架:Storm,Spark和Samza介紹比較大資料框架ORMSpark
- 在Spark和Hadoop上做大規模資料科學SparkHadoop資料科學
- 推特大規模應用的流處理框架:Apache Heron框架Apache
- MPP(大規模並行處理)簡介並行
- spark處理json資料DemoSparkJSON
- 基於Spark的大資料實時處理開課Spark大資料
- R語言資料處理(一)R語言
- r語言資料處理(三)R語言
- 資料演算法 Hadoop/Spark大資料處理---第十六章演算法HadoopSpark大資料
- 使用Apache Spark和BigDL來構建深度學習驅動的大資料分析ApacheSpark深度學習大資料
- 使用spark-sql處理Doris大表關聯SparkSQL
- java大資料處理:如何使用Java技術實現高效的大資料處理Java大資料
- 資料演算法 Hadoop/Spark大資料處理---第十二章演算法HadoopSpark大資料
- MPP大規模並行處理架構詳解並行架構
- 資料預處理規則
- 資料倉儲之大規模並行處理架構原理NY並行架構
- 尋路大資料:海量資料與大規模分析大資料
- 用R處理不平衡的資料
- R語言資料處理(二)字元分隔R語言字元
- Apache Beam,批處理和流式處理的融合!Apache
- 資料清洗和資料處理
- Flashtext:大規模資料清洗的利器
- 大資料常用處理框架大資料框架