Java記憶體模型深度解讀

張坤發表於2016-05-12

Java記憶體模型規範了Java虛擬機器與計算機記憶體是如何協同工作的。Java虛擬機器是一個完整的計算機的一個模型,因此這個模型自然也包含一個記憶體模型——又稱為Java記憶體模型。

如果你想設計表現良好的併發程式,理解Java記憶體模型是非常重要的。Java記憶體模型規定了如何和何時可以看到由其他執行緒修改過後的共享變數的值,以及在必須時如何同步的訪問共享變數。

原始的Java記憶體模型存在一些不足,因此Java記憶體模型在Java1.5時被重新修訂。這個版本的Java記憶體模型在Java8中人在使用。

Java記憶體模型內部原理

Java記憶體模型把Java虛擬機器內部劃分為執行緒棧和堆。這張圖演示了Java記憶體模型的邏輯檢視。

每一個執行在Java虛擬機器裡的執行緒都擁有自己的執行緒棧。這個執行緒棧包含了這個執行緒呼叫的方法當前執行點相關的資訊。一個執行緒僅能訪問自己的執行緒棧。一個執行緒建立的本地變數對其它執行緒不可見,僅自己可見。即使兩個執行緒執行同樣的程式碼,這兩個執行緒任然在在自己的執行緒棧中的程式碼來建立本地變數。因此,每個執行緒擁有每個本地變數的獨有版本。

所有原始型別的本地變數都存放線上程棧上,因此對其它執行緒不可見。一個執行緒可能向另一個執行緒傳遞一個原始型別變數的拷貝,但是它不能共享這個原始型別變數自身。

堆上包含在Java程式中建立的所有物件,無論是哪一個物件建立的。這包括原始型別的物件版本。如果一個物件被建立然後賦值給一個區域性變數,或者用來作為另一個物件的成員變數,這個物件任然是存放在堆上。

下面這張圖演示了呼叫棧和本地變數存放線上程棧上,物件存放在堆上。

一個本地變數可能是原始型別,在這種情況下,它總是“呆在”執行緒棧上。

一個本地變數也可能是指向一個物件的一個引用。在這種情況下,引用(這個本地變數)存放線上程棧上,但是物件本身存放在堆上。

一個物件可能包含方法,這些方法可能包含本地變數。這些本地變數任然存放線上程棧上,即使這些方法所屬的物件存放在堆上。

一個物件的成員變數可能隨著這個物件自身存放在堆上。不管這個成員變數是原始型別還是引用型別。

靜態成員變數跟隨著類定義一起也存放在堆上。

存放在堆上的物件可以被所有持有對這個物件引用的執行緒訪問。當一個執行緒可以訪問一個物件時,它也可以訪問這個物件的成員變數。如果兩個執行緒同時呼叫同一個物件上的同一個方法,它們將會都訪問這個物件的成員變數,但是每一個執行緒都擁有這個本地變數的私有拷貝。

下圖演示了上面提到的點:

兩個執行緒擁有一些列的本地變數。其中一個本地變數(Local Variable 2)執行堆上的一個共享物件(Object 3)。這兩個執行緒分別擁有同一個物件的不同引用。這些引用都是本地變數,因此存放在各自執行緒的執行緒棧上。這兩個不同的引用指向堆上同一個物件。

注意,這個共享物件(Object 3)持有Object2和Object4一個引用作為其成員變數(如圖中Object3指向Object2和Object4的箭頭)。通過在Object3中這些成員變數引用,這兩個執行緒就可以訪問Object2和Object4。

這張圖也展示了指向堆上兩個不同物件的一個本地變數。在這種情況下,指向兩個不同物件的引用不是同一個物件。理論上,兩個執行緒都可以訪問Object1和Object5,如果兩個執行緒都擁有兩個物件的引用。但是在上圖中,每一個執行緒僅有一個引用指向兩個物件其中之一。

因此,什麼型別的Java程式碼會導致上面的記憶體圖呢?如下所示:

public class MyRunnable implements Runnable() {

    public void run() {
        methodOne();
    }

    public void methodOne() {
        int localVariable1 = 45;

        MySharedObject localVariable2 =
            MySharedObject.sharedInstance;

        //... do more with local variables.

        methodTwo();
    }

    public void methodTwo() {
        Integer localVariable1 = new Integer(99);

        //... do more with local variable.
    }
}

public class MySharedObject {

    //static variable pointing to instance of MySharedObject

    public static final MySharedObject sharedInstance =
        new MySharedObject();

    //member variables pointing to two objects on the heap

    public Integer object2 = new Integer(22);
    public Integer object4 = new Integer(44);

    public long member1 = 12345;
    public long member1 = 67890;
}

如果兩個執行緒同時執行run()方法,就會出現上圖所示的情景。run()方法呼叫methodOne()方法,methodOne()呼叫methodTwo()方法。

methodOne()宣告瞭一個原始型別的本地變數和一個引用型別的本地變數。

每個執行緒執行methodOne()都會在它們對應的執行緒棧上建立localVariable1localVariable2的私有拷貝。localVariable1變數彼此完全獨立,僅“生活”在每個執行緒的執行緒棧上。一個執行緒看不到另一個執行緒對它的localVariable1私有拷貝做出的修改。

每個執行緒執行methodOne()時也將會建立它們各自的localVariable2拷貝。然而,兩個localVariable2的不同拷貝都指向堆上的同一個物件。程式碼中通過一個靜態變數設定localVariable2指向一個物件引用。僅存在一個靜態變數的一份拷貝,這份拷貝存放在堆上。因此,localVariable2的兩份拷貝都指向由MySharedObject指向的靜態變數的同一個例項。MySharedObject例項也存放在堆上。它對應於上圖中的Object3。

注意,MySharedObject類也包含兩個成員變數。這些成員變數隨著這個物件存放在堆上。這兩個成員變數指向另外兩個Integer物件。這些Integer物件對應於上圖中的Object2和Object4.

注意,methodTwo()建立一個名為localVariable的本地變數。這個成員變數是一個指向一個Integer物件的物件引用。這個方法設定localVariable1引用指向一個新的Integer例項。在執行methodTwo方法時,localVariable1引用將會在每個執行緒中存放一份拷貝。這兩個Integer物件例項化將會被儲存堆上,但是每次執行這個方法時,這個方法都會建立一個新的Integer物件,兩個執行緒執行這個方法將會建立兩個不同的Integer例項。methodTwo方法建立的Integer物件對應於上圖中的Object1和Object5。

還有一點,MySharedObject類中的兩個long型別的成員變數是原始型別的。因為,這些變數是成員變數,所以它們任然隨著該物件存放在堆上,僅有本地變數存放線上程棧上。

硬體記憶體架構

現代硬體記憶體模型與Java記憶體模型有一些不同。理解記憶體模型架構以及Java記憶體模型如何與它協同工作也是非常重要的。這部分描述了通用的硬體記憶體架構,下面的部分將會描述Java記憶體是如何與它“聯手”工作的。

下面是現代計算機硬體架構的簡單圖示:

一個現代計算機通常由兩個或者多個CPU。其中一些CPU還有多核。從這一點可以看出,在一個有兩個或者多個CPU的現代計算機上同時執行多個執行緒是可能的。每個CPU在某一時刻執行一個執行緒是沒有問題的。這意味著,如果你的Java程式是多執行緒的,在你的Java程式中每個CPU上一個執行緒可能同時(併發)執行。

每個CPU都包含一系列的暫存器,它們是CPU內記憶體的基礎。CPU在暫存器上執行操作的速度遠大於在主存上執行的速度。這是因為CPU訪問暫存器的速度遠大於主存。

每個CPU可能還有一個CPU快取層。實際上,絕大多數的現代CPU都有一定大小的快取層。CPU訪問快取層的速度快於訪問主存的速度,但通常比訪問內部暫存器的速度還要慢一點。一些CPU還有多層快取,但這些對理解Java記憶體模型如何和記憶體互動不是那麼重要。只要知道CPU中可以有一個快取層就可以了。

一個計算機還包含一個主存。所有的CPU都可以訪問主存。主存通常比CPU中的快取大得多。

通常情況下,當一個CPU需要讀取主存時,它會將主存的部分讀到CPU快取中。它甚至可能將快取中的部分內容讀到它的內部暫存器中,然後在暫存器中執行操作。當CPU需要將結果寫回到主存中去時,它會將內部暫存器的值重新整理到快取中,然後在某個時間點將值重新整理回主存。

當CPU需要在快取層存放一些東西的時候,存放在快取中的內容通常會被重新整理回主存。CPU快取可以在某一時刻將資料區域性寫到它的記憶體中,和在某一時刻區域性重新整理它的記憶體。它不會再某一時刻讀/寫整個快取。通常,在一個被稱作“cache lines”的更小的記憶體塊中快取被更新。一個或者多個快取行可能被讀到快取,一個或者多個快取行可能再被重新整理回主存。

Java記憶體模型和硬體記憶體架構之間的橋接

上面已經提到,Java記憶體模型與硬體記憶體架構之間存在差異。硬體記憶體架構沒有區分執行緒棧和堆。對於硬體,所有的執行緒棧和堆都分佈在主內中。部分執行緒棧和堆可能有時候會出現在CPU快取中和CPU內部的暫存器中。如下圖所示:

當物件和變數被存放在計算機中各種不同的記憶體區域中時,就可能會出現一些具體的問題。主要包括如下兩個方面:

  • 執行緒對共享變數修改的可見性
  • 當讀,寫和檢查共享變數時出現race conditions

下面我們專門來解釋以下這兩個問題。

共享物件可見性

如果兩個或者更多的執行緒在沒有正確的使用Volatile宣告或者同步的情況下共享一個物件,一個執行緒更新這個共享物件可能對其它執行緒來說是不接見的。

想象一下,共享物件被初始化在主存中。跑在CPU上的一個執行緒將這個共享物件讀到CPU快取中。然後修改了這個物件。只要CPU快取沒有被重新整理會主存,物件修改後的版本對跑在其它CPU上的執行緒都是不可見的。這種方式可能導致每個執行緒擁有這個共享物件的私有拷貝,每個拷貝停留在不同的CPU快取中。

下圖示意了這種情形。跑在左邊CPU的執行緒拷貝這個共享物件到它的CPU快取中,然後將count變數的值修改為2。這個修改對跑在右邊CPU上的其它執行緒是不可見的,因為修改後的count的值還沒有被重新整理回主存中去。

解決這個問題你可以使用Java中的volatile關鍵字。volatile關鍵字可以保證直接從主存中讀取一個變數,如果這個變數被修改後,總是會被寫回到主存中去。

Race Conditions

如果兩個或者更多的執行緒共享一個物件,多個執行緒在這個共享物件上更新變數,就有可能發生race conditions

想象一下,如果執行緒A讀一個共享物件的變數count到它的CPU快取中。再想象一下,執行緒B也做了同樣的事情,但是往一個不同的CPU快取中。現線上程A將count加1,執行緒B也做了同樣的事情。現在count已經被增在了兩個,每個CPU快取中一次。

如果這些增加操作被順序的執行,變數count應該被增加兩次,然後原值+2被寫回到主存中去。

然而,兩次增加都是在沒有適當的同步下併發執行的。無論是執行緒A還是執行緒B將count修改後的版本寫回到主存中取,修改後的值僅會被原值大1,儘管增加了兩次。

下圖演示了上面描述的情況:

解決這個問題可以使用Java同步塊。一個同步塊可以保證在同一時刻僅有一個執行緒可以進入程式碼的臨界區。同步塊還可以保證程式碼塊中所有被訪問的變數將會從主存中讀入,當執行緒退出同步程式碼塊時,所有被更新的變數都會被重新整理回主存中去,不管這個變數是否被宣告為volatile。

相關文章