Spark RPC框架原始碼分析（一）簡述

zzzzMing發表於2019-02-26

原文網址 : https://flycode.co/archives/228322

Spark RPC系列：

一. Spark rpc框架概述

Spark是最近幾年已經算是最為成功的大資料計算框架，那麼這次我們就來介紹它內部的一個小點，Spark RPC框架。

在介紹之前，我們需要先說明什麼是RPC，引用百度百科：

RPC（Remote Procedure Call）—遠端過程呼叫，它是一種通過網路從遠端計算機程式上請求服務，而不需要了解底層網路技術的協議。RPC協議假定某些傳輸協議的存在，如TCP或UDP，為通訊程式之間攜帶資訊資料。

Spark RPC可以說是Spark分散式叢集的基礎，若是將Spark類比為一個人的話，Spark RPC無疑就是它的血液部分。而在Spark1.6之前，它的RPC部分還是用akka實現的，但之後底層就換成了netty來實現。為什麼要這樣做呢？因為啊，這樣將Spark和Akka耦合在了一起，如果你係統本身就有使用到Akka，然後又想使用Spark的話，那兩個Akka框架版本不一致可怎麼辦呀，這無疑是很讓人頭痛的。Spark團隊正是考慮到了這一點，所以將Akka替換成了netty。

這次我們就來看看Spark是如何讓它的血液流動起來的吧。有一位大神將Spark RPC中的RPC部分剝離出來，弄成一個新的可執行的　RPC　專案，這個專案本身就可以當作一個簡易的Akka來使用，地址在這Spark RPC。

雖然名字不一樣，但這個專案的類和內容基本和Spark Core中RPC部分的程式碼和結構基本是一樣的，這樣我們就可以通過這個來學習Spark RPC框架。

PS：所用spark版本：spark2.1.0

二.Spark RPC中的 Hello world

我們程式設計師學東西最喜歡從一個Hello world開始，那麼接下來我們就來演示如何下載並執行最簡單的Hello World例子吧。

首先，我使用的編譯器是IDEA，通過idea將github上的程式碼clone下來。
可以看到專案目錄下有兩個模組，

kraps-rpc
kraps-rpc-example

kraps-rpc存放的是Spark RPC的原始碼，而我們要做的即是執行 kraps-rpc-example中的示例程式碼。

啟動PRC的話首先需要啟動Server端，開啟監聽服務，然後才能通過Client進行訪問。這裡在HelloworldServer.scala中都已經幫我們寫好，不過在main方法中需要修改一下內容，就是將host改為本機地址。

  def main(args: Array[String]): Unit = {
//    val host = args(0)
    val host = "localhost"
    val config = RpcEnvServerConfig(new RpcConf(), "hello-server", host, 52345)
    val rpcEnv: RpcEnv = NettyRpcEnvFactory.create(config)
    val helloEndpoint: RpcEndpoint = new HelloEndpoint(rpcEnv)
    rpcEnv.setupEndpoint("hello-service", helloEndpoint)
    rpcEnv.awaitTermination()
  }

然後我們只需要右鍵該檔案然後執行即可。

接下來我們就需要啟動Client端程式碼，我們先到HelloworldClient檔案中，這裡面提供了同步和非同步兩個方法可以執行。程式碼同樣都已經寫好，通過修改註釋即可使用不同的方法執行。同樣是右鍵點選該檔案執行。

  def main(args: Array[String]): Unit = {
    //非同步方法
    //asyncCall()
    //同步方法
    syncCall()
  }

非同步方法中，ask會返回一個Future（注意這裡的Future是scala中的Future，和java的是不一樣的）。並且在Future執行結果出來前，我們可以去做其他事情（非同步的優勢所在）。scala中的Future和Java的Future有些不同，不過這可以先不去管，先當作Java裡面的Future即可。

  def asyncCall() = {
    val rpcConf = new RpcConf()
    val config = RpcEnvClientConfig(rpcConf, "hello-client")
    val rpcEnv: RpcEnv = NettyRpcEnvFactory.create(config)
    val endPointRef: RpcEndpointRef = rpcEnv.setupEndpointRef(RpcAddress("localhost", 52345), "hello-service")
    val future: Future[String] = endPointRef.ask[String](SayHi("neo"))
    future.onComplete {
      case scala.util.Success(value) => println(s"Got the result = $value")
      case scala.util.Failure(e) => println(s"Got error: $e")
    }
    Await.result(future, Duration.apply("3s"))
    //在future結果執行出來前，會先列印這條語句。
    println("print me at first!")
    Thread.sleep(7)
  }

而同步方法是直接將結果返回，並且會阻塞，這個時間內你無法做其他事情，只能等待，直到結果返回。

  def syncCall() = {
    val rpcConf = new RpcConf()
    val config = RpcEnvClientConfig(rpcConf, "hello-client")
    val rpcEnv: RpcEnv = NettyRpcEnvFactory.create(config)
    val endPointRef: RpcEndpointRef = rpcEnv.setupEndpointRef(RpcAddress("localhost", 52345), "hello-service")
    val result = endPointRef.askWithRetry[String](SayBye("neo"))
    println(result)

  }

很簡單是吧，執行過例子後，我們就可以來了解一些Spark RPC執行過程中至關重要的兩個程式設計模型，以及在這其中使用到的一些主要的類。

三.Spark RPC中的兩個程式設計模型以及各個類

Spark RPC是使用了Actor模型和Reactor模型的混合模式，我們結合兩種模型分別說明Spark RPC中各個類的作用：

首先我們先來看Spark RPC的類圖。

Spark RPC 類圖

是不是感覺很亂？沒事，我們來逐步剖析各個類。

為了更加清楚了說明各個類的關係，我們要先知道兩個模型，分別是Actor模型和Reactor模型，我們將從這兩個模型的角度來拆解各個類的關係。

Actor模型

其實之前也有寫過一篇介紹Actor模型的文章，感興趣的同學可以點選這裡檢視Actor模型淺析。

其實Actor主要就是這副圖的內容：
Actor併發程式設計模型
在Spark RPC中有幾個類分別與Actor模型中的各個角色對應，對應如下，左邊的是Spark RPC中的類，右邊的是Actor模型中的角色：

RpcEndpoint => Actor

RpcEndpointRef => ActorRef

RpcEnv => ActorSystem

我們逐個來看：

RpcEnv --RPC Environment

RPC Environment 是 RpcEndpoint 的執行環境。它管理 RpcEndpoint 的整個生命週期：

通過名字或 URI 註冊 RpcEndpoint。
對到底的訊息進行路由，決定分發給哪個 RpcEndpoint。
停止 RpcEndpoint。

RPC Environment在akka已經被移除的2.0後面版本中，RPC Environment的實現類是NettyRpcEnv。通常是由NettyRpcEnvFactory.create建立。

RpcEndpoint

RpcEndpoint能通過callbacks接收訊息。通常需要我們自己寫一個類繼承RpcEndpoint。編寫自己的接收資訊和返回資訊規則。

RpcEndpoint的生命週期被RPC Environment管理。其生命週期包括，onStart,receive和onStop。

它是作為服務端，比如上面例子中的HelloworldServer就是一個RpcEndpoint。

RpcEndpointRef

RpcEndpointRef是RpcEndpoint在RPC Environment中的一個引用。

它包含一個地址（即Spark URL）和名字。RpcEndpointRef作為客戶端向服務端傳送請求並接收返回資訊，通常可以選擇使用同步或非同步的方式進行傳送。

Reactor模型

Spark RPC採用Actor模型和Reactor模型混合的結構，上面已經介紹了Actor，那麼現在我們就來介紹Reactor模型，同樣，我們可以從一張圖來看Reactor的架構。

Reactor模型

使用Reactor模型，由底層netty建立的EventLoop做I/O多路複用，這裡使用Multiple Reactors這種形式，如上圖所示，從netty的角度而言，Main Reactor和Sub Reactor對應BossGroup和WorkerGroup的概念，前者負責監聽TCP連線、建立和斷開，後者負責真正的I/O讀寫。

而圖中的ThreadPool就是的Dispatcher中的執行緒池，它來解耦開來耗時的業務邏輯和I/O操作，這樣就可以更scalabe，只需要少數的執行緒就可以處理成千上萬的連線，這種思想是標準的分治策略，offload非I/O操作到另外的執行緒池。

Dispatcher

Dispatcher的主要作用是儲存註冊的RpcEndpoint、分發相應的Message到RpcEndPoint中進行處理。Dispatcher即是上圖中ThreadPool的角色。它同時也維繫一個threadpool，用來處理每次接受到的InboxMessage。而這裡處理InboxMessage是通過inbox實現的。

Inbox

Inbox其實屬於Actor模型，是Actor中的信箱，不過它和Dispatcher聯絡緊密所以放這邊。

InboxMessage有多個實現它的類，比如OneWayMessage，RpcMessage，等等。Dispatcher會將接收到的InboxMessage分發到對應RpcEndpoint的Inbox中，然後Inbox便會處理這個InboxMessage。

OK，這次就先介紹到這裡，下次我們從程式碼的角度來看Spark RPC的執行機制

如果覺得對你有幫助，不妨關注一波吧~~

參考資料：https://zhuanlan.zhihu.com/p/28893155

Spark RPC框架原始碼分析（三）Spark心跳機制分析
2019-01-17
SparkRPC框架原始碼
Spark RPC框架原始碼分析（二）RPC執行時序
2019-02-25
SparkRPC框架原始碼
Spark core篇 Rpc原始碼1
2021-09-09
SparkRPC原始碼
go rpc 原始碼分析
2019-02-27
GoRPC原始碼
以太坊原始碼分析(51）rpc原始碼分析
2018-05-14
原始碼RPC
Dubbo原始碼淺析（一）—RPC框架與Dubbo
2023-09-28
原始碼RPC框架
比特幣原始碼分析--RPC
2018-05-24
比特幣原始碼RPC
Spark 原始碼分析系列
2019-07-28
Spark原始碼
簡述RPC原理實現
2018-10-10
RPC
以太坊原始碼分析(13)RPC分析
2018-05-13
原始碼RPC
Angular框架簡述
2018-11-23
Angular框架
徒手擼一個簡單的RPC框架
2019-01-20
RPC框架
Dubbo RPC執行緒模型原始碼分析
2020-12-29
RPC執行緒模型原始碼
基於vue實現一個簡單的MVVM框架（原始碼分析）
2018-08-04
VueMVVM框架原始碼
spark 原始碼分析之十三 -- SerializerManager剖析
2019-07-15
Spark原始碼
MJRefresh原始碼框架分析
2019-02-01
原始碼框架
spark 原始碼分析之十八 -- Spark儲存體系剖析
2019-07-23
Spark原始碼
spark 原始碼分析之十五 -- Spark記憶體管理剖析
2019-07-17
Spark原始碼記憶體
編寫 Netty / RPC 客戶端【框架程式碼分析】
2020-12-22
NettyRPC客戶端框架
spark 原始碼分析之十九 -- Stage的提交
2019-07-26
Spark原始碼
spark 原始碼分析之十六 -- Spark記憶體儲存剖析
2019-07-18
Spark原始碼記憶體
SpringBoot2.0原始碼分析（一）：SpringBoot簡單分析
2018-09-30
Spring Boot原始碼
golang如何使用原生RPC及微服務簡述
2021-05-12
GolangRPC微服務
Uber RIBs框架原始碼分析
2018-03-07
框架原始碼
Go 實現簡易 RPC 框架
2019-03-11
GoRPC框架
Hadoop3.2.1 【 YARN 】原始碼分析 :RPC通訊解析
2020-12-07
HadoopYarn原始碼RPC
【Flink】Flink 底層RPC框架分析
2019-07-02
RPC框架
Java 集合框架------ArrayList原始碼分析
2020-10-31
Java框架原始碼
Uncode-Schedule框架原始碼分析
2021-09-09
框架原始碼
MediaScanner原始碼簡單分析
2019-03-04
原始碼
Apache 流框架 Flink，Spark Streaming，Storm對比分析（一）
2018-04-27
Apache框架SparkORM
Java容器類框架分析(1)ArrayList原始碼分析
2019-01-28
Java框架原始碼
Java容器類框架分析(2)LinkedList原始碼分析
2019-01-21
Java框架原始碼
Java容器類框架分析(5)HashSet原始碼分析
2019-03-04
Java框架原始碼
Java類集框架 —— ArrayList原始碼分析
2019-01-16
Java框架原始碼
Java類集框架 —— LinkedList原始碼分析
2018-12-21
Java框架原始碼
直播電商原始碼，簡述直播的實現原理
2021-07-13
原始碼
簡述多使用者電商系統原始碼
2021-10-09
原始碼

Spark RPC框架原始碼分析（一）簡述

一. Spark rpc框架概述

二.Spark RPC中的 Hello world

三.Spark RPC中的兩個程式設計模型以及各個類

Actor模型

RpcEnv --RPC Environment

RpcEndpoint

RpcEndpointRef

Reactor模型

Dispatcher

Inbox

相關文章