MyBatis千萬級資料查詢解決方案,避免OOM

Young丶發表於2020-11-20

MyBatis千萬級資料查詢解決方案,避免OOM

流式查詢指的是查詢成功後不是返回一個集合而是返回一個迭代器,應用每次從迭代器取一條查詢結果。流式查詢的好處是能夠降低記憶體使用。

如果沒有流式查詢,我們想要從資料庫取 1000 萬條記錄而又沒有足夠的記憶體時,就不得不分頁查詢,而分頁查詢效率取決於表設計,如果設計的不好,就無法執行高效的分頁查詢。因此流式查詢是一個資料庫訪問框架必須具備的功能。

流式查詢的過程當中,資料庫連線是保持開啟狀態的,因此要注意的是:執行一個流式查詢後,資料庫訪問框架就不負責關閉資料庫連線了,需要應用在取完資料後自己關閉。

MyBatis 流式查詢介面

MyBatis 提供了一個叫 org.apache.ibatis.cursor.Cursor 的介面類用於流式查詢,這個介面繼承了 java.io.Closeablejava.lang.Iterable 介面,由此可知:

  1. Cursor 是可關閉的;
  2. Cursor 是可遍歷的。

除此之外,Cursor 還提供了三個方法:

  1. isOpen():用於在取資料之前判斷 Cursor 物件是否是開啟狀態。只有當開啟時 Cursor 才能取資料;
  2. isConsumed():用於判斷查詢結果是否全部取完。
  3. getCurrentIndex():返回已經獲取了多少條資料

因為 Cursor 實現了迭代器介面,因此在實際使用當中,從 Cursor 取資料非常簡單:

cursor.forEach(rowObject -> {...});

但構建 Cursor 的過程不簡單

我們舉個實際例子。下面是一個 Mapper 類:

@Mapper
public interface FooMapper {
    @Select("select * from foo limit #{limit}")
    Cursor<Foo> scan(@Param("limit") int limit);
}

方法 scan() 是一個非常簡單的查詢。通過指定 Mapper 方法的返回值為 Cursor 型別,MyBatis 就知道這個查詢方法一個流式查詢。

然後我們再寫一個 SpringMVC Controller 方法來呼叫 Mapper(無關的程式碼已經省略):

@GetMapping("foo/scan/0/{limit}")
public void scanFoo0(@PathVariable("limit") int limit) throws Exception {
    try (Cursor<Foo> cursor = fooMapper.scan(limit)) {  // 1
        cursor.forEach(foo -> {});                      // 2
    }
}

上面的程式碼中,fooMapper 是 @Autowired 進來的。

  • 註釋 1 處呼叫 scan 方法,得到 Cursor 物件並保證它能最後關閉;
  • 註釋 2 處則是從 cursor 中取資料。

上面的程式碼看上去沒什麼問題,但是執行 scanFoo0() 時會報錯:

java.lang.IllegalStateException: A Cursor is already closed.

這是因為我們前面說了在取資料的過程中需要保持資料庫連線,而 Mapper 方法通常在執行完後連線就關閉了,因此 Cusor 也一併關閉了。

所以,解決這個問題的思路不復雜,保持資料庫連線開啟即可。我們至少有三種方案可選。

方案一:SqlSessionFactory

我們可以用 SqlSessionFactory 來手工開啟資料庫連線,將 Controller 方法修改如下:

@GetMapping("foo/scan/1/{limit}")
public void scanFoo1(@PathVariable("limit") int limit) throws Exception {
    try (
        SqlSession sqlSession = sqlSessionFactory.openSession();  // 1
        Cursor<Foo> cursor = 
              sqlSession.getMapper(FooMapper.class).scan(limit)   // 2
    ) {
        cursor.forEach(foo -> { });
    }
}

上面的程式碼中,1 處我們開啟了一個 SqlSession (實際上也代表了一個資料庫連線),並保證它最後能關閉;2 處我們使用 SqlSession 來獲得 Mapper 物件。這樣才能保證得到的 Cursor 物件是開啟狀態的。

方案二:TransactionTemplate

在 Spring 中,我們可以用 TransactionTemplate 來執行一個資料庫事務,這個過程中資料庫連線同樣是開啟的。程式碼如下:

@GetMapping("foo/scan/2/{limit}")
public void scanFoo2(@PathVariable("limit") int limit) throws Exception {
    TransactionTemplate transactionTemplate = 
            new TransactionTemplate(transactionManager);  // 1

    transactionTemplate.execute(status -> {               // 2
        try (Cursor<Foo> cursor = fooMapper.scan(limit)) {
            cursor.forEach(foo -> { });
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    });
}

上面的程式碼中,1 處我們建立了一個 TransactionTemplate 物件(此處 transactionManager 是怎麼來的不用多解釋,本文假設讀者對 Spring 資料庫事務的使用比較熟悉了),2 處執行資料庫事務,而資料庫事務的內容則是呼叫 Mapper 物件的流式查詢。注意這裡的 Mapper 物件無需通過 SqlSession 建立。

方案三:@Transactional 註解

這個本質上和方案二一樣,程式碼如下:

@GetMapping("foo/scan/3/{limit}")
@Transactional
public void scanFoo3(@PathVariable("limit") int limit) throws Exception {
    try (Cursor<Foo> cursor = fooMapper.scan(limit)) {
        cursor.forEach(foo -> { });
    }
}

它僅僅是在原來方法上面加了個 @Transactional 註解。這個方案看上去最簡潔,但請注意 Spring 框架當中註解使用的坑:只在外部呼叫時生效。在當前類中呼叫這個方法,依舊會報錯。

以上是三種實現 MyBatis 流式查詢的方法。

相關文章