如何將Apache Druid,Flink和Cassandra用於實時流分析和使用者評分?
在Deep.BI上,我們能夠解決的最艱鉅的挑戰之一就是如何基於數十億個資料點實時提供可自定義的洞察力,這些洞察力可以從單個角度全面擴充套件到多達數百萬個使用者。
在Deep.BI,我們跟蹤使用者習慣,參與度,產品和內容效能-每天處理多達TB或數十億個事件。我們的目標是根據來自各種自行建立維度的自定義指標提供實時見解。該平臺允許執行來自各個領域的任務,例如使用實時分析來調整網站,執行AI最佳化的營銷活動,基於使用者參與度和AI評分提供動態的付費專區,或者基於資料異常和自適應模式來檢測欺詐行為。
為此,我們的系統收集了每個使用者互動。我們使用Apache Flink進行事件豐富,自定義轉換,聚合和提供機器學習模型。然後,Apache Druid將處理後的資料編入索引以進行實時分析和Apache Cassandra來傳遞結果資料。歷史資料也儲存在Apache Hadoop上,用於機器學習模型的構建。使用低階DataStream API,自定義流程功能和廣播狀態,我們構建了一個抽象的功能工程框架,該框架提供了可重複使用的模板來進行資料轉換。這使我們能夠輕鬆定義用於分析和機器學習的領域特定功能,並將批處理資料預處理管道從Apache Spark上部署的Python作業遷移到Flink,從而顯著提高效能。
更詳細內容點選標題進入。
相關文章
- 使用Apache Flink和Apache Ignit進行資料流分析Apache
- 基於 Apache Flink 的實時計算資料流業務引擎在京東零售的實踐和落地Apache
- 三種大資料流處理框架選擇比較:Apache Kafka流、Apache Spark流和Apache Flink - quora大資料框架ApacheKafkaSpark
- Apache Flink CDC 批流融合技術原理分析Apache
- Apache 流框架 Flink,Spark Streaming,Storm對比分析(1)Apache框架SparkORM
- Apache 流框架 Flink,Spark Streaming,Storm對比分析(2)Apache框架SparkORM
- Apache 流框架 Flink,Spark Streaming,Storm對比分析(一)Apache框架SparkORM
- Apache 流框架 Flink,Spark Streaming,Storm對比分析(二)Apache框架SparkORM
- 優步是如何使用Apache Flink和Kafka實現實時Exactly-Once廣告事件處理?ApacheKafka事件
- 基於flink和drools的實時日誌處理
- 快手基於 Apache Flink 的實時數倉建設實踐Apache
- Druid SQL和Security在美團點評的實踐UISQL
- 基於 Flink 流計算實現的股票交易實時資產應用
- Druid:實時分析資料儲存UI
- 關於 Apache Flink 和實時計算的最新動態、未來方向,你想知道的都在這裡Apache
- Doris和Flink在實時數倉實踐
- 大資料實時多維OLAP分析資料庫Apache Druid入門分享-上大資料資料庫ApacheUI
- 大資料實時多維OLAP分析資料庫Apache Druid入門分享-下大資料資料庫ApacheUI
- Netflix如何使用Druid進行業務質量實時分析UI行業
- Apache Flink 在小米的穩定性最佳化和實踐Apache
- 實時資料處理:Kafka 和 FlinkKafka
- BIGO 使用 Flink 做 OLAP 分析及實時數倉的實踐和優化Go優化
- 基於Flink和規則引擎的實時風控解決方案
- 美團點評基於 Flink 的實時數倉建設實踐
- Flink-電商使用者行為分析(實時對賬)
- Apache Flink,流計算?不僅僅是流計算!Apache
- 基於flink的電商使用者行為資料分析【3】| 實時流量統計
- Apache Flink 在翼支付的實踐應用Apache
- Apache Druid 在 Shopee 的工程實踐ApacheUI
- 在 Apache Cassandra 中定義和最佳化資料分割槽Apache
- 如何使用 Druid 和 Kafka 構造 Kappa 架構完成流量分析UIKafkaAPP架構
- Flink的sink實戰之三:cassandra3
- Flink整合面向使用者的資料流SDKs/API(Flink關於棄用Dataset API的論述)API
- Oceanus:基於Apache Flink的一站式實時計算平臺Apache
- 行業動態 | 通過使用Apache Cassandra實現實時供應鏈管理行業Apache
- Apache Flink 在移動雲實時計算的實踐Apache
- Apache Flink 在鬥魚的應用與實踐Apache
- B站基於Flink的海量使用者行為實時ETL實踐