深入理解Java虛擬機器筆記之三物件存活判定演算法與垃圾收集演算法

物件存活判定演算法

引用計數法

給物件中新增一個引用計數器，每當有一個地方引用它時，計數器值就加1；當引用失效時，計數器值就減1；任何時刻計數器為0的物件就是不可能再被使用。

引用計數演算法的實現簡單，判定效率也很高，在大部分情況下他都是一個不錯的演算法，但是，至少主流的Java虛擬機器裡面沒有選用引用計數演算法來管理記憶體，其中最主要的原因是他很難解決物件之間相互迴圈引用的問題。

public class ReferenceCountingGC {

    public  Object instance = null;
    private static final int _1MB = 1024*1024;

    private byte[] bigSize = new byte[2*_1MB];

    public static void testGC(){
        ReferenceCountingGC objA = new ReferenceCountingGC();
        ReferenceCountingGC objB = new ReferenceCountingGC();
        objA.instance = objB;
        objB.instance = objA;

        objA = null;
        objB = null;

        System.gc();
    }

    public static void main(String[] args) {
        testGC();
    }
}


[GC (System.gc()) [PSYoungGen: 9343K->824K(76288K)] 9343K->832K(251392K), 0.0006888 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 
[Full GC (System.gc()) [PSYoungGen: 824K->0K(76288K)] [ParOldGen: 8K->630K(175104K)] 832K->630K(251392K), [Metaspace: 3448K->3448K(1056768K)], 0.0039029 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 
Heap
 PSYoungGen      total 76288K, used 1966K [0x000000076b000000, 0x0000000770500000, 0x00000007c0000000)
  eden space 65536K, 3% used [0x000000076b000000,0x000000076b1eb9e0,0x000000076f000000)
  from space 10752K, 0% used [0x000000076f000000,0x000000076f000000,0x000000076fa80000)
  to   space 10752K, 0% used [0x000000076fa80000,0x000000076fa80000,0x0000000770500000)
 ParOldGen       total 175104K, used 630K [0x00000006c1000000, 0x00000006cbb00000, 0x000000076b000000)
  object space 175104K, 0% used [0x00000006c1000000,0x00000006c109d908,0x00000006cbb00000)
 Metaspace       used 3463K, capacity 4496K, committed 4864K, reserved 1056768K
  class space    used 380K, capacity 388K, committed 512K, reserved 1048576K
  
複製程式碼

可達性分析演算法

在主流的商用程式語言（Java、C#）的主流實現中，都是通過可達性分析來判定物件是否存活的。這個演算法的基本思路就是通過一系列的成為“GC Roots”的物件作為起始點，從這些節點開始向下搜尋，搜尋，搜尋所走過的路徑稱為引用鏈，當一個物件到GC Roots沒有任何引用鏈相連時，則證明物件是不可用的。

物件object5、object6、object7雖然互有關聯，但是它們到GC Roots是不可達的，所以他們將會被判定是可回收的物件。

在Java語言中，可作為GC Roots的物件包括下面幾種：

虛擬機器棧（棧幀中的本地變數表）中引用的物件
方法區中類靜態屬性引用的物件
方法區中常量引用的物件
本地方法棧中JNI（Native方法）引用的物件

引用

強引用

指在程式程式碼中普遍存在的，類似Object obj = new Object()這類的引用，只要強引用還存在，垃圾收集器永遠不會回收掉被引用的物件
軟引用

用來描述一些還有用但並非必需的物件。對於引用關聯著的物件，在系統將要發生記憶體溢位異常之前，將會把這些物件列進回收範圍之中進行第二次回收。如果這次回收還沒有足夠的記憶體，才會丟擲記憶體溢位異常。
弱引用

用來描述非必需物件的，但是它的強度比軟引用更弱一些，被弱引用關聯的物件只能生存到下一次垃圾收集發生之前。當垃圾收集器工作時，無論當前記憶體是否足夠，都會回收掉只被弱引用關聯的物件。
虛引用

虛引用也稱為幽靈引用或者幻影引用，它是最弱的一種引用關係。一個物件是否有虛引用的存在，完全不會對其生存時間構成影響，也無法通過虛引用來取得一個物件例項。為一個物件設定虛引用關聯的唯一目的就是能在這個物件被收集器回收時收到一個系統通知。

即使在可達性分析演算法中不可達的物件，也並非是“非死不可”的，這時候它們暫時處於“緩刑”階段，要真正宣告一個物件死亡，至少要經歷兩次標記過程：

如果物件在進行可達性分析後發現沒有與GC Roots相連線的引用鏈，那它將會被第一次標記並且進行一次篩選，篩選的條件是此物件是否有必要執行finalize()方法。如果物件沒有副高finalize()方法或者finalize()方法以及被虛擬機器呼叫過，虛擬機器將這兩種情況都視為“沒有必要執行”。

如果這個物件被判定為有必要執行finalize()方法，那麼這個物件將會放置在一個F-Queue的佇列中。稍後由一個由虛擬機器自動建立的，低優先順序的Finalizer執行緒去執行它。

finalize()方法虛擬機器只會執行一次。

回收方法區

在方法區中進行垃圾收集的價效比比較低，在堆中，尤其是新生代，常規應用進行一次垃圾收集一般可以回收70%-95%的空間，而永久代的垃圾收集效率遠低於此。

永久代的垃圾收集主要回收兩個部分：廢棄常量和無用的類。

回收廢棄常量與回收Java堆中的物件非常類似，沒有任何地方引用這個常量，當發生記憶體回收時，有必要的話，就會將這個常量清理出常量池。

回收無用的類：

該類所有的例項都已經被回收，也就是Java堆中不存在該類的任何例項。
載入該類的ClassLoader已經被回收。
該類對應的java.lang.Class物件沒有在任何地方被引用，無法在任何地方通過反射訪問該類的方法。

垃圾收集演算法

標記-清除演算法

最基礎的收集演算法。演算法分為“標記”和“清除”兩個階段：首先標記出所有需要回收的物件，在標記完成後統一回收所有被標記的物件。

主要不足：

效率問題，標記和清除兩個過程的效率都不高；
空間問題，標記清除後會產生大量不連續的記憶體碎片，空間碎片太多可能會導致以後在程式執行過程中需要分配較大物件時，無法找到足夠的連續記憶體而不得不提前觸發另一次垃圾收集動作。

複製演算法

將可用記憶體按容量分為大小相等的兩塊，每次只使用其中的一塊。當這一塊的記憶體用完了，就將還存活著的物件複製到另一塊上面，然後再把已使用過的記憶體空間一次清理掉。這樣使得每次都是對整個半區進行記憶體回收，記憶體分配時也就不用考慮記憶體碎片等複雜情況，只要移動堆頂指標，按順序分配記憶體即可，實現簡單，執行高效。

缺點：記憶體縮小為原來的一半。

現在的商業虛擬機器都採用這種收集演算法來回收新生代，新生代中的物件98%是“朝生夕死”的，所以並不需要1：1的比例來劃分記憶體空間，而是將記憶體分為一塊較大的Eden空間和兩塊較小的Survivor空間，每次使用Eden和其中一塊Survivor。當回收時，將Eden和Survivor中還存活著的物件一次性的複製到另外一塊Survivor空間上，最後清理掉Eden和剛才用過的Survivor空間。

HotSpot虛擬機器預設Eden和Survivor的大小比例是8：1，也就是每次新生代中可用記憶體空間為整個新生代容量的90%（80%+10%），只有10%的記憶體會被浪費。當然98%的物件可回收只是一般場景下的資料，我們沒有辦法保證每次回收都只有不多於10%的物件存活，當Survivor空間不夠用時，需要依賴其他記憶體（這裡指老年代）進行分配擔保。

如果另一塊Survivor空間沒有足夠空間存放上一次新生代收集下來的存活物件時，這些物件將直接通過分配擔保機制進入老年代。

標記-整理演算法

標記整理演算法標記過程與標記清理演算法一樣，但後續步驟不是直接對可回收物件進行清理，而是讓所有的物件都向一端移動，然後直接清理掉端邊界以外的記憶體。

分代收集演算法

當前商業虛擬機器的垃圾收集都採用“分代收集”演算法，這種演算法並沒有什麼新的思想，只是根據物件存活週期的不同將記憶體劃分為幾塊。一般是把Java堆分為新生代和老年代，這樣就可以根據各個年代的特點採用最適當的收集演算法。

在新生代中，每次垃圾收集時都發現有大批物件死去，只有少量存貨，那就選用複製演算法，只需要付出少量存貨物件的複製成本就可以完成收集。而老年代中因為物件的存活率高、沒有額外空間對它進行分配擔保，就必須使用“標記-清理”或者“標記-整理”演算法來進行回收。