Cassandra+Akka+Spark分散式機器學習架構

banq發表於2015-10-31

目前基於Mesos的 Spark, Akka, Cassandra 和 Kafka (簡稱SMACK)架構將機器學習大資料分析快資料實時流處理和叢集自動化管理結合一起，形成大資料領域的主流架構。

資料分為快資料和大資料；快資料包括相關的最新資訊以及提供可操作的事件。大資料是有關分析與模型和學習，聚類，分類以及組織事實。

下圖是展示對大資料和快資料分別進行批處理和流處理以後，進入分散式資料儲存系統，然後再為終端使用者分別提供分析報告和實時提醒報警服務。

[img index=1]

為了實現這樣一個目標設計，使用Akka-Cassandra-Spark 組合實現，如下圖：

[img index=2]

Spark從Cassandra中釋放資料，建立模型，豐富模型，改造模型後再寫入到Cassandra；而Akka負責從Kafka訊息系統接受處理事件，以及實現實時響應式的提醒和報警服務。

使用Akka持久化接受進來的事件到Cassandra，也就是將Akka有態actor將其內部狀態持久化儲存，這樣當遭遇崩潰或重新啟動或叢集遷移時，actor能夠從Cassandra中恢復狀態，這是使用event sourcing原理，只是將改變actor狀態的事件持久化，而不是直接持久狀態，這是以一種日誌方式儲存。這種方式有很高的事務性和複製高效性。

Apache Spark機器學習初級教程

英文資料：

使用Spark MLlib, Akka and Cassandra進行實時異常檢測

Using Spark to analyse Akka persistence journal in Cassandra

Streaming Big Data with Spark, Spark Streaming, Kafka, Cassandra and Akka

[該貼被banq於2015-10-31 14:29修改過]

分散式機器學習中的模型架構
2021-12-05
分散式機器學習模型架構
分散式機器學習中的模型聚合
2021-12-02
分散式機器學習模型
分散式機器學習常用資料集
2021-11-28
分散式機器學習
分散式發號器架構設計
2018-05-25
分散式架構
分散式架構 -- 學習路線圖（入門到進階）
2018-04-23
分散式架構
分散式WebSocket架構
2018-10-21
分散式Web架構
滴滴機器學習平臺架構演進
2019-05-18
機器學習架構
ClickHouse 分散式架構（qbit）
2022-06-13
分散式架構
分散式架構的概述
2019-03-20
分散式架構
滴滴機器學習平臺架構演進之路
2019-03-28
機器學習架構
MLSys提前看：機器學習的分散式優化方法
2020-02-21
機器學習分散式優化
基於SpringCloud分散式架構
2020-05-23
SpringGCCloud分散式架構
KAFKA介紹（分散式架構）
2018-08-15
Kafka分散式架構
MLSys提前看：機器學習的分散式最佳化方法
2020-02-21
機器學習分散式
分散式架構和微服務架構的區別
2024-03-25
分散式架構微服務
機器學習--起手式
2023-01-05
機器學習
分散式機器學習、聯邦學習、多智慧體的區別和聯絡
2021-12-11
分散式機器學習聯邦學習智慧體
分散式系統架構筆記
2024-11-06
分散式架構筆記
分散式快取架構綜述
2024-03-29
分散式快取架構
沒有完美的分散式架構
2022-07-08
分散式架構
分散式 PostgreSQL - Citus 架構及概念
2022-03-06
分散式SQL架構
分散式 PostgreSQL - Citus 架構及概念
2022-03-07
分散式SQL架構
剖析ElasticSearch基礎分散式架構
2019-03-06
Elasticsearch分散式架構
springmvc+mybatis +Jeesz 分散式架構
2018-08-09
SpringMVCMyBatis分散式架構
基於 dubbo 的分散式架構
2018-07-06
分散式架構
分散式系統的架構思路
2018-08-25
分散式架構
springmvc + mybatis + ehcache + redis 分散式架構
2018-03-07
SpringMVCMyBatisRedis分散式架構
分散式機器學習：非同步SGD和Hogwild!演算法（Pytorch）
2023-02-13
分散式機器學習非同步HOG演算法PyTorch
大資料的分散式機器學習的策略與原則
2022-05-10
大資料分散式機器學習
分散式機器學習：如何快速從Python棧過渡到Scala棧
2020-10-20
分散式機器學習Python
阿里P8架構師進階心得：分散式資料庫架構MyCat學習筆記送給你
2020-10-22
阿里架構分散式資料庫筆記
.NET 雲原生架構師訓練營（基於 OP Storming 和 Actor 的大型分散式架構三）--學習筆記
2023-01-16
架構ORM分散式筆記
.NET 雲原生架構師訓練營（基於 OP Storming 和 Actor 的大型分散式架構二）--學習筆記
2022-12-25
架構ORM分散式筆記
spring cloud微服務分散式雲架構（四）-斷路器（Hystrix）
2019-03-21
SpringCloud微服務分散式架構
談談人工智慧和機器學習的資料架構
2023-10-27
人工智慧機器學習架構
分散式機器學習框架與高維實時推薦系統
2020-07-20
分散式機器學習框架
OpML 2019提前看：模型表現預測與分散式機器學習
2019-05-20
模型分散式機器學習
MongoDB中的分散式叢集架構
2023-12-16
MongoDB分散式架構
微服務分散式架構之redis篇
2020-10-04
微服務分散式架構Redis

Cassandra+Akka+Spark分散式機器學習架構

相關文章