如何將Apache Druid,Flink和Cassandra用於實時流分析和使用者評分?
在Deep.BI上,我們能夠解決的最艱鉅的挑戰之一就是如何基於數十億個資料點實時提供可自定義的洞察力,這些洞察力可以從單個角度全面擴充套件到多達數百萬個使用者。
在Deep.BI,我們跟蹤使用者習慣,參與度,產品和內容效能-每天處理多達TB或數十億個事件。我們的目標是根據來自各種自行建立維度的自定義指標提供實時見解。該平臺允許執行來自各個領域的任務,例如使用實時分析來調整網站,執行AI最佳化的營銷活動,基於使用者參與度和AI評分提供動態的付費專區,或者基於資料異常和自適應模式來檢測欺詐行為。
為此,我們的系統收集了每個使用者互動。我們使用Apache Flink進行事件豐富,自定義轉換,聚合和提供機器學習模型。然後,Apache Druid將處理後的資料編入索引以進行實時分析和Apache Cassandra來傳遞結果資料。歷史資料也儲存在Apache Hadoop上,用於機器學習模型的構建。使用低階DataStream API,自定義流程功能和廣播狀態,我們構建了一個抽象的功能工程框架,該框架提供了可重複使用的模板來進行資料轉換。這使我們能夠輕鬆定義用於分析和機器學習的領域特定功能,並將批處理資料預處理管道從Apache Spark上部署的Python作業遷移到Flink,從而顯著提高效能。
更詳細內容點選標題進入。
相關文章
- 使用Apache Flink和Apache Ignit進行資料流分析Apache
- 實時流處理框架Apache Flink簡介框架Apache
- 基於 Apache Flink 的實時計算資料流業務引擎在京東零售的實踐和落地Apache
- 三種大資料流處理框架選擇比較:Apache Kafka流、Apache Spark流和Apache Flink - quora大資料框架ApacheKafkaSpark
- 基於Flink流處理的動態實時超大規模使用者行為分析
- Apache Flink CDC 批流融合技術原理分析Apache
- 優步是如何使用Apache Flink和Kafka實現實時Exactly-Once廣告事件處理?ApacheKafka事件
- 基於 Flink 流計算實現的股票交易實時資產應用
- Druid SQL和Security在美團點評的實踐UISQL
- 快手基於 Apache Flink 的實時數倉建設實踐Apache
- 基於flink和drools的實時日誌處理
- 使用 Apache Kafka 和微服務實時分析 Twitter 趨勢ApacheKafka微服務
- Apache 流框架 Flink,Spark Streaming,Storm對比分析(2)Apache框架SparkORM
- Apache 流框架 Flink,Spark Streaming,Storm對比分析(1)Apache框架SparkORM
- Apache 流框架 Flink,Spark Streaming,Storm對比分析(一)Apache框架SparkORM
- Apache 流框架 Flink,Spark Streaming,Storm對比分析(二)Apache框架SparkORM
- Druid:實時分析資料儲存UI
- 關於 Apache Flink 和實時計算的最新動態、未來方向,你想知道的都在這裡Apache
- Doris和Flink在實時數倉實踐
- 美團點評基於 Flink 的實時數倉建設實踐
- Airbnb UX 分析:如何吸引即時流動使用者AIUX
- Flink-電商使用者行為分析(實時對賬)
- 實時資料處理:Kafka 和 FlinkKafka
- 【雲星資料---Apache Flink實戰系列(精品版)】:Apache Flink高階特性與高階應用011-Slot和Parallelism的深入分析006ApacheParallel
- 【雲星資料---Apache Flink實戰系列(精品版)】:Apache Flink高階特性與高階應用012-Slot和Parallelism的深入分析007ApacheParallel
- 大資料實時多維OLAP分析資料庫Apache Druid入門分享-上大資料資料庫ApacheUI
- 大資料實時多維OLAP分析資料庫Apache Druid入門分享-下大資料資料庫ApacheUI
- 基於flink的電商使用者行為資料分析【3】| 實時流量統計
- Apache Flink 在小米的穩定性最佳化和實踐Apache
- 基於Flink和規則引擎的實時風控解決方案
- Apache Flink,流計算?不僅僅是流計算!Apache
- Apache Spark技術實戰之3 -- Spark Cassandra Connector的安裝和使用ApacheSpark
- 把Apache Cassandra作為雲資料庫的評估Apache資料庫
- Netflix如何使用Druid進行業務質量實時分析UI行業
- 如何基於TensorFlow使用LSTM和CNN實現時序分類任務CNN
- BIGO 使用 Flink 做 OLAP 分析及實時數倉的實踐和優化Go優化
- Apache Flink 在鬥魚的應用與實踐Apache
- Apache Flink 在翼支付的實踐應用Apache