初步探索GraalVM--雲原生時代JVM黑科技

京東雲開發者發表於2022-11-17

1 雲原生時代Java語言的困境

經過多年的演進,Java語言的功能和效能都在不斷的發展和提高,諸如即時編譯器、垃圾回收器等系統都能體現Java語言的優秀,但是想要享受這些功能帶來的提升都需要一段時間的執行來達到最佳效能,總的來說Java是面向大規模、長時間使用的服務端應用而設計的。

雲原生時代,Java語言一次編譯到處執行的優勢不復存在,理論上使用容器化技術,所有語言都能部署上雲,而無法脫離JVM的Java應用往往要面對JDK記憶體佔用比應用本身還大的窘境;Java動態載入、解除安裝的特性也使得構建的應用映象中有一半以上的無用程式碼和依賴這些都使得Java應用佔用記憶體相當多。而啟動時間長,效能達到峰值的時間長使得在Serverless等場景下無法與Go、Node.js等快速語言競爭。

Java應用程式的執行生命週期示意圖

2 GraalVM

面對雲原生時代Java的不適,GraalVM或許是最好的解藥。GraalVM是Oracle實驗室推出的基於Java開發的開源高效能多語言執行時平臺,它既可以在傳統的 OpenJDK 上執行,也可以透過 AOT(Ahead-Of-Time)編譯成可執行檔案單獨執行,甚至可以整合至資料庫中執行。除此之外,它還移除了程式語言之間的邊界,並且支援透過即時編譯技術,將混雜了不同的程式語言的程式碼編譯到同一段二進位制碼之中,從而實現不同語言之間的無縫切換。

本文主要簡單從三個方面介紹GraalVM可以為我們帶來的改變:

1)基於Java的Graal Compiler的出現對學習和研究虛擬機器程式碼編譯技術有著不可估量的價值,相比C++編寫的複雜無比的服務端編譯器,不管是對編譯器的最佳化還是學習的成本都大大的降低。
2)靜態編譯框架Substrate VM框架,為Java在雲原生時代提供了與其他語言競爭的可能,大大的減少了Java應用佔用記憶體,並且可以加快啟動速度幾十倍。

3)以Truffle和Sulong為代表的中間語言直譯器,開發者可以使用Truffle提供的API快速用Java實現一種語言的直譯器,從而實現了在JVM平臺上執行其他語言的效果,為Java世界帶來了更多更有想象力的可能性。


GraalVM多語言支援

3 GraalVM整體結構

graal
├── CONTRIBUTING.md
├── LICENSE
├── README.md
├── SECURITY.md
├── THIRD\_PARTY\_LICENSE.txt
├── bench-common.libsonnet
├── ci-resources.libsonnet
├── ci.hocon
├── ci.jsonnet
├── ci_includes
├── common-utils.libsonnet
├── common.hocon
├── common.json
├── common.jsonnet
├── compiler
├── docs
├── espresso
├── graal-common.json
├── java-benchmarks
├── regex
├── repo-configuration.libsonnet
├── sdk
├── substratevm
├── sulong
├── tools
├── truffle
├── vm
└── wasm

3.1 Compiler

Compiler子專案全稱GraalVM編譯器,是用Java語言編寫的Java編譯器。高編譯效率、高輸出質量、同時支援提前編譯(AOT)和即時編譯(JIT)、同時支援應用於包括HotSpot在內的不同虛擬機器的編譯器。

與C2採用一樣的中間表示形式(Sea of Nodes IR),後端最佳化上直接繼承了大量來自於HotSpot的服務端編譯器的高質量最佳化技術,是現在高校、研究院和企業編譯研究實踐的主要平臺。

Graal Compiler是GraalVM與HotSpotVM(從JDK10起)共同擁有的服務端即時編譯器,是C2編譯器未來的替代者。為了讓 Java 虛擬機器與編譯器解耦,ORACLE引入了Java-Level JVM Compiler Interface(JVMCI)Jep 243 :把編譯器從虛擬機器中抽離出來,並且可以透過介面與虛擬機器交流(https://openjdk.java.net/jeps/243)

具體來說,即時編譯器與 Java 虛擬機器的互動可以分為如下三個方面。

  1. 響應編譯請求;
  2. 獲取編譯所需的後設資料(如類、方法、欄位)和反映程式執行狀態的 profile;
  3. 將生成的二進位制碼部署至程式碼快取(code cache)裡。


oracle提供的編譯時間差異示例

3.2 Substrate VM

Substrate VM提供了將Java程式靜態編譯為原生程式碼的編譯工具鏈,包括了編譯框架、靜態分析工具、C++支援框架及執行時支援等。在程式執行前便將位元組碼轉換為機器碼

優點:

  1. 從指定的編譯入口開始靜態可達性分析,有效的控制了編譯範圍,解決了程式碼膨脹的問題;
  2. 實現了多種執行時最佳化例如:傳統的java類是在第一次被用到時初始化的,之後每次呼叫時還要再檢查是否初始化過,GraalVM將其最佳化為在編譯時初始化;
  3. 無需在執行過程中耗費CPU資源來進行即時編譯,而程式也能在啟動一開始就達到理想的效能;

缺點:

  1. 靜態分析是資源密集型計算,需要消耗大量CPU、記憶體和時間;
  2. 靜態分析對反射、JNI、動態代理的分析能力非常有限,目前GraalVM只能透過額外配置的方式加以解決;
  3. Java序列化也有多項違反封閉性假設的動態特性:反射,JNI,動態類載入,目前GraalVM也需要透過額外配置解決,且不能處理所有序列化,例如Lambda物件的序列化,而且效能是JDK的一半;

啟動時長對比

佔用記憶體對比

3.3 Truffle

我們知道一般編譯器分為前端和後端,前端負責詞法分析、語法分析、型別檢查和中間程式碼生成,後端負責編譯最佳化和目的碼生成。一種比較取巧的做法是將新語言編譯成某種已知語言,如Scala、Kotlin可以編譯成Java位元組碼,這樣就可以直接享用JVM的JIT、GC等各項最佳化,這種做法都是針對的編譯型語言。與之相對的,如JavaScript、Ruby、R、Python等解釋型語言,它們依賴於解釋執行器進行解析並執行,為了讓這類解釋型語言能夠更高效的執行,開發人員通常需要開發虛擬機器,並實現垃圾回收,即時編譯等元件,讓該語言在虛擬機器中執行,如Google的V8引擎。如果能讓這些語言也可以在JVM上執行並複用JVM的各種最佳化方案,將會減少許多重複造輪子的消耗。這也是Truffle專案的目標。

Truffle是一個用Java編寫的直譯器實現框架。它提供瞭直譯器的開發框架介面,可以幫助開發人員用Java為自己感興趣的語言快速開發處語言直譯器,目前已經實現並維護了JavaScript、Ruby、R、Python等語言。

只需基於Truffle實現相關語言的詞法分析器、語法分析器及針對語法分析所生成的抽象語法樹(AST)的解釋執行器,便可以執行在任何Java虛擬機器上,享用JVM提供的各項執行時最佳化。

GraalVM多語言執行時效能加速比

3.3.1 Partial Evaluation

Truffle的實現原理基於Partial Evaluation這一概念:假設程式prog為將輸入轉為輸出

其中Istatic為靜態資料,在編譯時已知常量,Idynamic為編譯時未知資料,則可以將程式等價為:

新程式prog_為prog的特化,他應該會比原程式更高效的執行,這個從prog轉換到prog_的過程便稱為Partial Evaluation。我們可以將Truffle預壓的解釋執行器當成prog,將某段由Truffle語言寫的程式當做Istatic,並透過Partial Evaluation將prog轉換到prog*。

下面引用一個Oracle官方的例子來講解,以下程式實現了讀取引數以及引數相加的操作,需要實現讀取三個引數相加:

這段程式解析生成的AST為

sample = new Add(new Add(new Arg(0), new Arg(1)), new Arg(2));

經過Partial Evaluator 的不斷進行方法內聯最終會變成下述程式碼:

3.3.2 節點重寫

節點重寫是Truffle的另一項關鍵最佳化。

在動態語言中許多變數的型別是在執行時才能確定的,以“加法”舉例,符號+即可以表示整型相加也可以表示浮點型相加。Truffle的語言直譯器會收集每個AST節點所代表的操作型別(profile),並且在編譯時做出針對所收集到的profile進行最佳化,如:若收集到的profile顯示這是一個整型加法操作,Truffle會在即時編譯時將AST進行變形,將“+”視為整型加法。

當然,這種最佳化也會有錯誤的時候,比如上述加法操作既有可能是整數加法也可能是字串加法,此時若AST樹已變形,那麼我們只好丟棄編譯後的機器程式碼,回退到AST解釋執行。這種基於型別 profile 的最佳化,背後的核心就是基於假設的投機性最佳化,以及在假設失敗時的去最佳化。

在即時編譯過後,如果執行過程中發現 AST 節點的實際型別和所假設的型別不同,Truffle 會主動呼叫 Graal 編譯器提供的去最佳化 API,返回至解釋執行 AST 節點的狀態,並且重新收集 AST 節點的型別資訊。之後,Truffle 會再次利用 Graal 編譯器進行新一輪的即時編譯。

據統計,在 JavaScript 方法和 Ruby 方法中,80% 會在 5 次方法呼叫後穩定下來,90% 會在 7 次呼叫後穩定下來,99%會在 19 次方法呼叫之後穩定下來。

3.4 Sulong

Sulong子專案是GraalVM為LLVM的中間語言bitcode提供的高新更執行時工具,是基於Truffle框架實現的bitcode直譯器。Sulong為所有可以編譯到LLVM bitcode的語言(如C,C++等)提供了在JVM中執行的解決方案。

4 參考

  • 林子熠 《GraalVM與靜態編譯》;
  • 周志明《深入理解Java虛擬機器》;
  • Java Developer’s Introduction to GraalVM:-鄭雨迪
  • Truffle/Graal:From Interpreters toOptimizing Compilers via Partial Evaluation:-Carnegie Mellon University

作者:王子豪

相關文章