Strata Data Conference Beijing教學輔導課 [多功能廳5B+C議題介紹]

OReillyData發表於2017-04-18

大資料的資料模型

從Spark到Impala,再到Spark Streaming或Storm,分散式計算引擎最近的發展令人興奮。然而,如果你的設計僅僅只是專注於資料處理層並期望得到高速度和效能,那麼你可能就忽視了故事的另外一半,從而沒能用到很多的優化方法。

Ted Malaska關注於技術棧的下層,將會介紹一系列在Cassandra、HBase、Kudu、Kafka、SoIR、Elasticsearch、HDFS和S3上實現的儲存設計的模式和規劃。通過仔細地調整每種業務場景下資料儲存的方式,資料處理和訪問的時間可以降低兩到三個數量級。

你在本課程裡學習到的策略和原理可以被應用於很多的軟體環境。課程裡會展示使用HDFS、HBase、Cassandra、Kudu、Kafka、Elasticsearch和S3的例子。


Hadoop應用的架構:欺詐檢測

設計實現一個可擴充套件、低延遲的架構需要廣泛瞭解各種框架,比如Kafka、HBase、HDFS、Flume、Spark、Spark Streaming和Impala等。好訊息是現在有非常充沛的資源(書籍、網站、會議等)來深入瞭解和這些專案相關的資訊。壞訊息則是對於如何整合這些部件並實現完整的解決方案的資訊卻是相當得匱乏。


Ted將會指導參會者搭建一個欺詐檢測系統,並使用一個端到端的案例研究作為一個具體的例子,展示如何使用Apache Hadoop元件(比如Kafka、HBase、Impala和Spark)來架構和實現一個實時系統。他會介紹架構設計實時應用的最佳實踐和考慮點,為那些已經瞭解Hadoop和熟悉分散式資料處理系統的開發人員、架構師或是專案領導提供如何利用Hadoop元件來實現實時應用的更多的洞察。


主題包括

  • 在Kafka、HBase和Hadoop裡建立資料模型,併為資料選擇最優的儲存格式

  • 整合多個資料採集、處理和儲存系統

  • 收集和分析基於事件的資料,比如日誌、機器生成的資料,並在Hadoop裡儲存這些資料

  • 對資料做查詢和出報表




Strata Data Conference北京站已經開啟註冊系統,閱讀原文可瀏覽截止到目前為止的講師名單和已經確認的議題,最優惠票價期截止到5月5日為止儘快註冊以確保留位

640?wx_fmt=png


相關文章