如何將Apache Druid,Flink和Cassandra用於實時流分析和使用者評分?

banq發表於2020-12-08

在Deep.BI上,我們能夠解決的最艱鉅的挑戰之一就是如何基於數十億個資料點實時提供可自定義的洞察力,這些洞察力可以從單個角度全面擴充套件到多達數百萬個使用者。
在Deep.BI,我們跟蹤使用者習慣,參與度,產品和內容效能-每天處理多達TB或數十億個事件。我們的目標是根據來自各種自行建立維度的自定義指標提供實時見解。該平臺允許執行來自各個領域的任務,例如使用實時分析來調整網站,執行AI最佳化的營銷活動,基於使用者參與度和AI評分提供動態的付費專區,或者基於資料異常和自適應模式來檢測欺詐行為。
為此,我們的系統收集了每個使用者互動。我們使用Apache Flink進行事件豐富,自定義轉換,聚合和提供機器學習模型。然後,Apache Druid將處理後的資料編入索引以進行實時分析和Apache Cassandra來傳遞結果資料。歷史資料也儲存在Apache Hadoop上,用於機器學習模型的構建。使用低階DataStream API,自定義流程功能和廣播狀態,我們構建了一個抽象的功能工程框架,該框架提供了可重複使用的模板來進行資料轉換。這使我們能夠輕鬆定義用於分析和機器學習的領域特定功能,並將批處理資料預處理管道從Apache Spark上部署的Python作業遷移到Flink,從而顯著提高效能。

更詳細內容點選標題進入。

相關文章