JVM,我就不信學不會你了

四猿外發表於2021-07-12

JVM 對 Java 有多重要,對程式設計師面試有多重要,這些不用多說。

如果你還沒意識到學 JVM 的必要性,或者不知道怎麼學 JVM,那麼看完這篇文章,你就能知道答案了。

曾經的我很不屑於學 JVM,但是後來發現不學不行。這就像和媳婦吵架之後我不想道歉一樣,不道歉那是不可能的,道歉是早晚的事兒,逃不掉。

後來我明白了:

認慫越晚,結局越慘。

但是我學的時候才知道:JVM,你太過分了,太難學了!

我的學習過程可以說非常坎坷,不過經歷坎坷之後,我倒是發現學 JVM 的門道很多。

以我的經驗加上和同行們的交流,我認為學 JVM 最好的方法是:

在程式設計師不同的水平段,做精準的學習。

所謂的精準學習,就是學習對自己工作有巨大幫助的知識點。以工作內容帶動學習,等到積累多了,再一舉攻克所有 JVM 知識點,最終熟練掌握 JVM 底層原理。

下面我來說說初級、高階、資深程式設計師,如何循序漸進、分步學習。

初級程式設計師怎麼學

對剛入行的新手程式設計師,工作一般是修復簡單 bug、開發簡單功能。如何編碼少出 bug,是這個階段的核心問題。

對於這個核心問題,JVM 原理必須深入掌握兩個知識點。

1. 類的初始化

類的初始化,要了解的非常深入才可以。否則,一不留神就會往專案裡引入一些有關初始化的 bug。

比如看看下面這段程式碼:

public class ParentClass {
    private int parentX;
    public ParentClass() {
        setX(100);
    }
    public void setX(int x) {
        parentX = x;
    }
}

public class ChildClass extends ParentClass{
    private int childX = 1;
    public ChildClass() {}
    @Override
    public void setX(int x) {
        super.setX(x);
        childX = x;
        System.out.println("ChildX 被賦值為 " + x);
    }
    public void printX() {
        System.out.println("ChildX = " + childX);
    }

}

public class TryInitMain {
    public static void main(String[] args) {
        ChildClass cc = new ChildClass();
        cc.printX();
    }
}

有興趣可以執行看看結果,一旦把這種程式碼放到了生產環境裡,排查非常困難。

2. Java 記憶體結構和物件分配

第二個知識點,就是 Java 記憶體結構和物件分配的基礎知識,尤其是 JVM 記憶體中堆的佈局和物件分配的關係。

比如,堆記憶體的佈局

當然,Java7 後,新佈局變了

知道佈局了,就得知道java物件分配的基本原則:

  • 物件優先在Eden區分配
  • 物件太大直接會分配到老年代

只有知道這些知識,才不會經常寫下底下這種 bug:

// 將全部行數讀取的記憶體中 
List<String> lines = FileUtils.readLines(new File("temp/test.txt"), Charset.defaultCharset()); 
for (String line : lines) { 
    // pass 
} 

上面這段程式碼,一旦讀取到了大檔案,很可能把生產環境搞崩。

所以,把上述兩個知識點深入理解了,對新手提升自己的程式碼質量非常非常有用。只有程式碼質量上去了,你才能得到更好的發展。

對於這兩個知識點,我認為通過網路的文章去學習最好。如果直接看書,有兩個最大的缺點:

  • 知識積累不足導致學不懂
  • 書中冗餘知識點太多,互相交雜,精力耗費過大,價效比不高

故這裡學習推薦根據知識點去搜文章讀,而不是找原理性的書籍看。

高階程式設計師怎麼學

對處於這個階段的朋友,他們已經可以熟練編寫健壯的程式碼了,經常會獨立開發出一個大的功能模組,有的可能還能獨立開發出一個完整的小型專案。

這時候,他們可能會面臨兩種情況:

1. 需要寫一些工具類給全團隊使用

在這種情況下,你很可能就需要 Java 中的語法糖,因為語法糖能讓你寫出非常靈活簡單的程式碼。這包括泛型,自動拆裝箱,可變引數還有遍歷迴圈。

但是,使用這些語法糖的時候,如果你不熟悉他們在 JVM 中的實現原理,就非常容易栽個大跟頭,

比如:

public class GenericPitfall {
    public static void main(String[] args) {
	    	List list = new ArrayList();
	    	list.add("123");
	    	List<Integer>  list2 = list;
	    	System.out.println(list2.get(0).intValue());
		}
}

2. 編寫效能優越的程式碼

什麼時候需要效能優越的程式碼?最常見的就是把以前效能不好的同步實現,轉化成非同步實現。

而這種要求,就需要開發對 Java 的多執行緒開發非常熟悉,並且一定要深入理解多執行緒在 JVM 中的原理實現。

不然,可以看看下面這段程式碼:

class IncompletedSynchronization {
		int x;

		public int getX() {
	    	return x;
		}

		public synchronized void setX(int x) {
	    	this.x = x;
		}
}

再看看這段:

Object lock = new Object();
synchronized (lock) {
		lock = new Object();
}

如果把上面這些程式碼上了生產環境,熬通宵排查問題的命運就註定了……

這裡的知識點,我推薦通過網上的文章看,又因為涉及到了併發知識,我建議就著《Java Performance》第二版的“Chapter 9. Threading and Synchronization Performance”這章一起看。

還有餘力,建議再繼續看周志明的那本《深入理解 JAVA 虛擬機器》第三版中的 12-13 章。周志明這本書講的十分深入,也帶來個缺點:門檻高。此時,如果沒看懂可以放一放。

注意,我這裡說的是併發的原理,不是併發實踐,讀者想學併發程式設計,《JAVA 併發程式設計實踐》我認為是前提條件,故不會贅述。

資深程式設計師怎麼學

這時候的你,已經開始承擔專案開發中很重要的職責了,有些出色的朋友都開始帶團隊了。那這時候,你可能會做下面的事:

1. 合理規劃專案使用資源

合理規劃專案使用資源,前提是對垃圾回收有非常深入的瞭解。

如果說在新手期,已經對 Java 物件的記憶體分配和記憶體使用有了大致的概念,那麼,這個垃圾回收,則是這類知識的進一步擴充。

只有理解了各種垃圾回收的原理,再配合著 Java 記憶體佈局的基礎知識,才能更好地規劃出專案用什麼回收演算法,才能在合適的資源利用度上得到最佳效能。

比如,新生代和老年代之間的合適比例。比如,新生代中 Eden 和 Survivor 區域間的比例。

2. 排查各種線上問題

要排查各種問題,就需要對 JVM 提供的各種故障排查工具非常瞭解。

這些工具又分為兩類:

  • 基礎的命令列形式的故障處理工具,比如 jps、jstack 等等
  • 第二類是視覺化的故障處理工具,比如 VisualVM

但是,掌握工具的使用還不夠。因為有關垃圾回收的問題,還必須得通過解析 GC 日誌後,再通過工具的使用,才可能能定位到問題的根源。

所以,最好對使用故障排查工具和 GC 日誌都非常熟練。

比如:

2021-05-26T14:45:37.987-0200: 151.126:
[GC (Allocation Failure) 151.126: [DefNew: 629119K->69888K(629120K), 0.0584157 secs] 1619346K->1273247K(2027264K), 0.0585007 secs]
[Times: user=0.06 sys=0.00, real=0.06 secs]

2021-05-26T14:45:59.690-0200: 172.829:
[GC (Allocation Failure) 172.829: [DefNew: 629120K->629120K(629120K), 0.0000372 secs]172.829: [Tenured: 1203359K->755802K(1398144K), 0.1855567 secs] 1832479K->755802K(2027264K), [Metaspace: 6741K->6741K(1056768K)], 0.1856954 secs]
[Times: user=0.18 sys=0.00, real=0.18 secs]

上面這條,應該一眼看出來,垃圾演算法用的是 Serial 收集器,並且年輕代分配出現了問題,大小可能需要調整。

這裡的知識點,強烈反對看網上的文章,網上說的很多細節有問題,疏漏很多。所以,推薦看書。

《Java Performance》第二版裡,“Chapter 5. An Introduction to Garbage Collection”,“Chapter 6. Garbage Collection Algorithms”的知識已經足夠。

有人去看《深入理解 JAVA 虛擬機器》第三版中的第 3 章,講垃圾收集器與記憶體分配策略的。這裡還是老問題,講的太細,我建議繞過 3.4 節,講 HotSpot 演算法細節的那塊兒。

這裡安全點這個知識點挺重要,但是現在這個階段想理解挺難的。我覺得將來做一些底層框架,接觸到崩潰恢復的 checkpoint 相關思想了,再回頭來學習,那才能真正理解和掌握。

技術專家怎麼學

達到這個級別了,那就需要對整套 JVM 要有非常深入的瞭解了,因為你是解決技術問題的最後保障了。有些時候,甚至還需要因為某些問題開發出各種各樣的工具。

曾經,有個專案時不時總是會報錯:

java.lang.OutOfMemoryError: GC overhead limit exceeded

這個問題幾個同事都沒搞定,就來找我。我看了看,突然想起來,以前在官方調優指南《HotSpot Virtual Machine Garbage Collection Tuning Guide》看到過相關介紹。

JVM 本身記憶體不足就會執行 GC,但是如果每次 GC 回收的記憶體不夠,那麼很快就會開始下一次 GC。

JVM 有個預設的保護機制,如果發現在一個統計週期內,98% 的時間都是在執行 GC,記憶體回收卻少於 2% 的時候,就會報這個錯。

怎麼引起的呢?這個問題如果去排查程式碼,那真的是難如登天,首先,沒有任何堆疊錯誤去幫助定位問題。其次,專案程式碼量大了去了,而且是年頭久遠。

這時,就需要通過對 JVM 總體的深入理解,去反推問題了。我當時是這樣推理的:

記憶體溢位,GC 無法回收問題,說明了兩個問題:

  1. 堆內的記憶體不夠用了
  2. 佔用記憶體的物件要麼就是該關閉的資源沒有關閉,要麼被大量的暫時放在一起了

那如果我 dump 出記憶體檔案出來,再分析下就知道是哪些物件在佔用記憶體了。

一查發現是大量的字串在佔用記憶體。

綜合我前面的推測,字串不是資料庫連線,肯定沒有該關閉未關閉的問題。那就剩一個可能了,就是被大量的暫時放起來了,導致 GC 回收不了。

那麼新問題來了,能大量放字串的,會是什麼?

首先就去猜快取。根據這條線索,直接去原始碼搜 Cache 關鍵詞,把所有關於 Cache 的程式碼都看了下。一下子就找到問題了。

原來,我們有個功能是解析一個非常大的檔案。檔案的格式如下:

需要把這個檔案的每一行內容按照列去一起存到資料庫裡。

由於寫程式碼的人偷懶,想一次解析完畢後一股腦全塞到資料庫裡。所以,他弄了個 Map,Map 的 Key 是相同的列名,Value是每一行解析過的內容。

而這樣寫程式碼的結果就是,一行對應了一個有三個條目的 HashMap。如果檔案有十幾萬行,就有十幾萬的 HashMap。然後,這些 HashMap 再存到一個列表裡,再把這個列表放到一個叫做 xxxCache 的 HashMap 中。

示意程式碼如下:

public class ParseFile4OOM {
    public static void main(String[] args) {
        List<Map<String, String>> lst = new ArrayList<>();
        for (int i = 0; i < 100000; i++) {
            Map<String, String> map = new HashMap<>();
            map.put("Column1", "Content1");
            map.put("Column2", "Content2");
            map.put("Column3", "Content3");
            lst.add(map);
        }

        Map<String, List<Map<String, String>>> contentCache = new HashMap<>();
        contentCache.put("contents", lst);
    }
}

那對這種情況怎麼辦呢?程式碼還不能大動,只能優化。

那時,我們已經用了 JDK8 了,引入了 String 常量池。同時,Hashmap 在這個業務場景下,容積是固定的,所以,就不應該給它多分配空間,就固定死為 3。

優化後,程式碼如下:

public class ParseFile4OOM {
    public static void main(String[] args) {
        List<Map<String, String>> lst = new ArrayList<>();
        for (int i = 0; i < 100000; i++) {
            Map<String, String> map = new HashMap<>(3);
            map.put("Column1".intern(), "Content1".intern());
            map.put("Column2".intern(), "Content2".intern());
            map.put("Column3".intern(), "Content3".intern());
            lst.add(map);
        }

        Map<String, List<Map<String, String>>> contentCache = new HashMap<>();
        contentCache.put("contents".intern(), lst);
    }
}

把優化後的程式碼上線,錯誤搞定了!

所以,在這個階段就非得把 JVM 吃透不可了。吃透原理就必須靠看書了。

周志明的《深入理解 JAVA 虛擬機器》是必須的了,但是還不夠。

《Oracle JRockit: The Definitive Guide》這本書我也建議讀一讀,雖然老了,但是裡面的很多內容,尤其前四章,對 JVM 原理真的快講透了。對 JVM 是如何彈性伸縮去平衡資源和效能關係的,娓娓道來,讓我醍醐灌頂,程式設計視野一下子開啟了很多。

至此,不同階段的學習方法講完了。

總的來說,JVM 知識廣博複雜,如果想要掌握,不能一蹴而就。而且我們們程式設計師不容易,需要學的知識太多,然而我們們的精力卻是有限的。

所以,對於 JVM 原理來說,假設有些知識點眼前看不懂,用不上,可以先暫時放一放,做到精準學習,把省下來的精力用在別的知識甚至自己的生活上,更有意義。

看完如果覺得有收穫,希望能隨手點個贊。


你好,我是四猿外。

一家上市公司的技術總監,管理的技術團隊一百餘人。

我從一名非計算機專業的畢業生,轉行到程式設計師,一路打拼,一路成長。

我會把自己的成長故事寫成文章,把枯燥的技術文章寫成故事。

歡迎關注我的公眾號。

相關文章