AIO 簡介

工程師WWW發表於2015-05-08

Linux的I/O機制經歷了一下幾個階段的演進:
1. 同步阻塞I/O: 使用者程式進行I/O操作,一直阻塞到I/O操作完成為止。
2. 同步非阻塞I/O: 使用者程式可以通過設定檔案描述符的屬性O_NONBLOCK,I/O操作可以立即返回,但是並不保證I/O操作成功。
3. 非同步事件阻塞I/O: 使用者程式可以對I/O事件進行阻塞,但是I/O操作並不阻塞。通過select/poll/epoll等函式呼叫來達到此目的。
4. 非同步時間非阻塞I/O: 也叫做非同步I/O(AIO),使用者程式可以通過向核心發出I/O請求命令,不用等帶I/O事件真正發生,可以繼續做
           另外的事情,等I/O操作完成,核心會通過函式回撥或者訊號機制通知使用者程式。這樣很大程度提高了系統吞吐量。

AIO 簡介

Linux 非同步 I/O 是 Linux 核心中提供的一個相當新的增強。它是 2.6 版本核心的一個標準特性,但是我們在 2.4 版本核心的補丁中也可以找到它。AIO 背後的基本思想是允許程式發起很多 I/O 操作,而不用阻塞或等待任何操作完成。稍後或在接收到 I/O 操作完成的通知時,程式就可以檢索 I/O 操作的結果。

I/O 模型

在深入介紹 AIO API 之前,讓我們先來探索一下 Linux 上可以使用的不同 I/O 模型。這並不是一個詳盡的介紹,但是我們將試圖介紹最常用的一些模型來解釋它們與非同步 I/O 之間的區別。圖 1 給出了同步和非同步模型,以及阻塞和非阻塞的模型。


圖 1. 基本 Linux I/O 模型的簡單矩陣
基本 Linux I/O 模型的簡單矩陣 

每個 I/O 模型都有自己的使用模式,它們對於特定的應用程式都有自己的優點。本節將簡要對其一一進行介紹。

同步阻塞 I/O

I/O 密集型與 CPU 密集型程式的比較

I/O 密集型程式所執行的 I/O 操作比執行的處理操作更多。CPU 密集型的程式所執行的處理操作比 I/O 操作更多。Linux 2.6 的排程器實際上更加偏愛 I/O 密集型的程式,因為它們通常會發起一個 I/O 操作,然後進行阻塞,這就意味著其他工作都可以在兩者之間有效地交錯進行。

最常用的一個模型是同步阻塞 I/O 模型。在這個模型中,使用者空間的應用程式執行一個系統呼叫,這會導致應用程式阻塞。這意味著應用程式會一直阻塞,直到系統呼叫完成為止(資料傳輸完成或發生錯誤)。呼叫應用程式處於一種不再消費 CPU 而只是簡單等待響應的狀態,因此從處理的角度來看,這是非常有效的。

圖 2 給出了傳統的阻塞 I/O 模型,這也是目前應用程式中最為常用的一種模型。其行為非常容易理解,其用法對於典型的應用程式來說都非常有效。在呼叫 read 系統呼叫時,應用程式會阻塞並對核心進行上下文切換。然後會觸發讀操作,當響應返回時(從我們正在從中讀取的裝置中返回),資料就被移動到使用者空間的緩衝區中。然後應用程式就會解除阻塞(read呼叫返回)。


圖 2. 同步阻塞 I/O 模型的典型流程
同步阻塞 I/O 模型的典型流程 

從應用程式的角度來說,read 呼叫會延續很長時間。實際上,在核心執行讀操作和其他工作時,應用程式的確會被阻塞。

同步非阻塞 I/O

同步阻塞 I/O 的一種效率稍低的變種是同步非阻塞 I/O。在這種模型中,裝置是以非阻塞的形式開啟的。這意味著 I/O 操作不會立即完成,read 操作可能會返回一個錯誤程式碼,說明這個命令不能立即滿足(EAGAIN 或 EWOULDBLOCK),如圖 3 所示。


圖 3. 同步非阻塞 I/O 模型的典型流程
同步非阻塞 I/O 模型的典型流程 

非阻塞的實現是 I/O 命令可能並不會立即滿足,需要應用程式呼叫許多次來等待操作完成。這可能效率不高,因為在很多情況下,當核心執行這個命令時,應用程式必須要進行忙碌等待,直到資料可用為止,或者試圖執行其他工作。正如圖 3 所示的一樣,這個方法可以引入 I/O 操作的延時,因為資料在核心中變為可用到使用者呼叫 read 返回資料之間存在一定的間隔,這會導致整體資料吞吐量的降低。

非同步阻塞 I/O

另外一個阻塞解決方案是帶有阻塞通知的非阻塞 I/O。在這種模型中,配置的是非阻塞 I/O,然後使用阻塞 select 系統呼叫來確定一個 I/O 描述符何時有操作。使 select 呼叫非常有趣的是它可以用來為多個描述符提供通知,而不僅僅為一個描述符提供通知。對於每個提示符來說,我們可以請求這個描述符可以寫資料、有讀資料可用以及是否發生錯誤的通知。


圖 4. 非同步阻塞 I/O 模型的典型流程 (select)
非同步阻塞 I/O 模型的典型流程 

select 呼叫的主要問題是它的效率不是非常高。儘管這是非同步通知使用的一種方便模型,但是對於高效能的 I/O 操作來說不建議使用。

非同步非阻塞 I/O(AIO)

最後,非同步非阻塞 I/O 模型是一種處理與 I/O 重疊進行的模型。讀請求會立即返回,說明 read 請求已經成功發起了。在後臺完成讀操作時,應用程式然後會執行其他處理操作。當 read 的響應到達時,就會產生一個訊號或執行一個基於執行緒的回撥函式來完成這次 I/O 處理過程。


圖 5. 非同步非阻塞 I/O 模型的典型流程
非同步非阻塞 I/O 模型的典型流程 

在一個程式中為了執行多個 I/O 請求而對計算操作和 I/O 處理進行重疊處理的能力利用了處理速度與 I/O 速度之間的差異。當一個或多個 I/O 請求掛起時,CPU 可以執行其他任務;或者更為常見的是,在發起其他 I/O 的同時對已經完成的 I/O 進行操作。

下一節將深入介紹這種模型,探索這種模型使用的 API,然後展示幾個命令。


非同步 I/O 的動機

從前面 I/O 模型的分類中,我們可以看出 AIO 的動機。這種阻塞模型需要在 I/O 操作開始時阻塞應用程式。這意味著不可能同時重疊進行處理和 I/O 操作。同步非阻塞模型允許處理和 I/O 操作重疊進行,但是這需要應用程式根據重現的規則來檢查 I/O 操作的狀態。這樣就剩下非同步非阻塞 I/O 了,它允許處理和 I/O 操作重疊進行,包括 I/O 操作完成的通知。

除了需要阻塞之外,select 函式所提供的功能(非同步阻塞 I/O)與 AIO 類似。不過,它是對通知事件進行阻塞,而不是對 I/O 呼叫進行阻塞。


Linux 上的 AIO 簡介

本節將探索 Linux 的非同步 I/O 模型,從而幫助我們理解如何在應用程式中使用這種技術。

在傳統的 I/O 模型中,有一個使用惟一控制程式碼標識的 I/O 通道。在 UNIX® 中,這些控制程式碼是檔案描述符(這對等同於檔案、管道、套接字等等)。在阻塞 I/O 中,我們發起了一次傳輸操作,當傳輸操作完成或發生錯誤時,系統呼叫就會返回。

Linux 上的 AIO

AIO 在 2.5 版本的核心中首次出現,現在已經是 2.6 版本的產品核心的一個標準特性了。

在非同步非阻塞 I/O 中,我們可以同時發起多個傳輸操作。這需要每個傳輸操作都有惟一的上下文,這樣我們才能在它們完成時區分到底是哪個傳輸操作完成了。在 AIO 中,這是一個 aiocb(AIO I/O Control Block)結構。這個結構包含了有關傳輸的所有資訊,包括為資料準備的使用者緩衝區。在產生 I/O (稱為完成)通知時,aiocb 結構就被用來惟一標識所完成的 I/O 操作。這個 API 的展示顯示瞭如何使用它。


AIO API

AIO 介面的 API 非常簡單,但是它為資料傳輸提供了必需的功能,並給出了兩個不同的通知模型。表 1 給出了 AIO 的介面函式,本節稍後會更詳細進行介紹。


表 1. AIO 介面 API
API 函式 說明
aio_read 請求非同步讀操作
aio_error 檢查非同步請求的狀態
aio_return 獲得完成的非同步請求的返回狀態
aio_write 請求非同步寫操作
aio_suspend 掛起呼叫程式,直到一個或多個非同步請求已經完成(或失敗)
aio_cancel 取消非同步 I/O 請求
lio_listio 發起一系列 I/O 操作

每個 API 函式都使用 aiocb 結構開始或檢查。這個結構有很多元素,但是清單 1 僅僅給出了需要(或可以)使用的元素。


清單 1. aiocb 結構中相關的域 
  
struct aiocb {

  int aio_fildes;               // File Descriptor
  int aio_lio_opcode;           // Valid only for lio_listio (r/w/nop)
  volatile void *aio_buf;       // Data Buffer
  size_t aio_nbytes;            // Number of Bytes in Data Buffer
  struct sigevent aio_sigevent; // Notification Structure

  /* Internal fields */
  ...

};

sigevent 結構告訴 AIO 在 I/O 操作完成時應該執行什麼操作。我們將在 AIO 的展示中對這個結構進行探索。現在我們將展示各個 AIO 的 API 函式是如何工作的,以及我們應該如何使用它們。

aio_read

aio_read 函式請求對一個有效的檔案描述符進行非同步讀操作。這個檔案描述符可以表示一個檔案、套接字甚至管道。aio_read 函式的原型如下:

int aio_read( struct aiocb *aiocbp );

aio_read 函式在請求進行排隊之後會立即返回。如果執行成功,返回值就為 0;如果出現錯誤,返回值就為 -1,並設定errno 的值。

要執行讀操作,應用程式必須對 aiocb 結構進行初始化。下面這個簡短的例子就展示瞭如何填充 aiocb 請求結構,並使用aio_read 來執行非同步讀請求(現在暫時忽略通知)操作。它還展示了 aio_error 的用法,不過我們將稍後再作解釋。


清單 2. 使用 aio_read 進行非同步讀操作的例子 
  
#include <aio.h>

...

  int fd, ret;
  struct aiocb my_aiocb;

  fd = open( "file.txt", O_RDONLY );
  if (fd < 0) perror("open");

  /* Zero out the aiocb structure (recommended) */
  bzero( (char *)&my_aiocb, sizeof(struct aiocb) );

  /* Allocate a data buffer for the aiocb request */
  my_aiocb.aio_buf = malloc(BUFSIZE+1);
  if (!my_aiocb.aio_buf) perror("malloc");

  /* Initialize the necessary fields in the aiocb */
  my_aiocb.aio_fildes = fd;
  my_aiocb.aio_nbytes = BUFSIZE;
  my_aiocb.aio_offset = 0;

  ret = aio_read( &my_aiocb );
  if (ret < 0) perror("aio_read");

  while ( aio_error( &my_aiocb ) == EINPROGRESS ) ;

  if ((ret = aio_return( &my_iocb )) > 0) {
    /* got ret bytes on the read */
  } else {
    /* read failed, consult errno */
  }


在清單 2 中,在開啟要從中讀取資料的檔案之後,我們就清空了 aiocb 結構,然後分配一個資料緩衝區。並將對這個資料緩衝區的引用放到 aio_buf 中。然後,我們將 aio_nbytes 初始化成緩衝區的大小。並將 aio_offset 設定成 0(該檔案中的第一個偏移量)。我們將 aio_fildes 設定為從中讀取資料的檔案描述符。在設定這些域之後,就呼叫 aio_read 請求進行讀操作。我們然後可以呼叫 aio_error 來確定 aio_read 的狀態。只要狀態是 EINPROGRESS,就一直忙碌等待,直到狀態發生變化為止。現在,請求可能成功,也可能失敗。

使用 AIO 介面來編譯程式

我們可以在 aio.h 標頭檔案中找到函式原型和其他需要的符號。在編譯使用這種介面的程式時,我們必須使用 POSIX 實時擴充套件庫(librt)。

注意使用這個 API 與標準的庫函式從檔案中讀取內容是非常相似的。除了 aio_read 的一些非同步特性之外,另外一個區別是讀操作偏移量的設定。在傳統的 read 呼叫中,偏移量是在檔案描述符上下文中進行維護的。對於每個讀操作來說,偏移量都需要進行更新,這樣後續的讀操作才能對下一塊資料進行定址。對於非同步 I/O 操作來說這是不可能的,因為我們可以同時執行很多讀請求,因此必須為每個特定的讀請求都指定偏移量。

aio_error

aio_error 函式被用來確定請求的狀態。其原型如下:

int aio_error( struct aiocb *aiocbp );

這個函式可以返回以下內容:

  • EINPROGRESS,說明請求尚未完成
  • ECANCELLED,說明請求被應用程式取消了
  • -1,說明發生了錯誤,具體錯誤原因可以查閱 errno

aio_return

非同步 I/O 和標準塊 I/O 之間的另外一個區別是我們不能立即訪問這個函式的返回狀態,因為我們並沒有阻塞在 read 呼叫上。在標準的 read 呼叫中,返回狀態是在該函式返回時提供的。但是在非同步 I/O 中,我們要使用 aio_return 函式。這個函式的原型如下:

ssize_t aio_return( struct aiocb *aiocbp );

只有在 aio_error 呼叫確定請求已經完成(可能成功,也可能發生了錯誤)之後,才會呼叫這個函式。aio_return 的返回值就等價於同步情況中 read 或 write 系統呼叫的返回值(所傳輸的位元組數,如果發生錯誤,返回值就為 -1)。

aio_write

aio_write 函式用來請求一個非同步寫操作。其函式原型如下:

int aio_write( struct aiocb *aiocbp );

aio_write 函式會立即返回,說明請求已經進行排隊(成功時返回值為 0,失敗時返回值為 -1,並相應地設定 errno)。

這與 read 系統呼叫類似,但是有一點不一樣的行為需要注意。回想一下對於 read 呼叫來說,要使用的偏移量是非常重要的。然而,對於 write 來說,這個偏移量只有在沒有設定 O_APPEND 選項的檔案上下文中才會非常重要。如果設定了O_APPEND,那麼這個偏移量就會被忽略,資料都會被附加到檔案的末尾。否則,aio_offset 域就確定了資料在要寫入的檔案中的偏移量。

aio_suspend

我們可以使用 aio_suspend 函式來掛起(或阻塞)呼叫程式,直到非同步請求完成為止,此時會產生一個訊號,或者發生其他超時操作。呼叫者提供了一個 aiocb 引用列表,其中任何一個完成都會導致 aio_suspend 返回。 aio_suspend 的函式原型如下:

int aio_suspend( const struct aiocb *const cblist[],
                  int n, const struct timespec *timeout );

aio_suspend 的使用非常簡單。我們要提供一個 aiocb 引用列表。如果任何一個完成了,這個呼叫就會返回 0。否則就會返回 -1,說明發生了錯誤。請參看清單 3。


清單 3. 使用 aio_suspend 函式阻塞非同步 I/O 
  
struct aioct *cblist[MAX_LIST]

/* Clear the list. */
bzero( (char *)cblist, sizeof(cblist) );

/* Load one or more references into the list */
cblist[0] = &my_aiocb;

ret = aio_read( &my_aiocb );

ret = aio_suspend( cblist, MAX_LIST, NULL );

注意,aio_suspend 的第二個引數是 cblist 中元素的個數,而不是 aiocb 引用的個數。cblist 中任何 NULL 元素都會被aio_suspend 忽略。

如果為 aio_suspend 提供了超時,而超時情況的確發生了,那麼它就會返回 -1errno 中會包含 EAGAIN

aio_cancel

aio_cancel 函式允許我們取消對某個檔案描述符執行的一個或所有 I/O 請求。其原型如下:

int aio_cancel( int fd, struct aiocb *aiocbp );

要取消一個請求,我們需要提供檔案描述符和 aiocb 引用。如果這個請求被成功取消了,那麼這個函式就會返回AIO_CANCELED。如果請求完成了,這個函式就會返回 AIO_NOTCANCELED

要取消對某個給定檔案描述符的所有請求,我們需要提供這個檔案的描述符,以及一個對 aiocbp 的 NULL 引用。如果所有的請求都取消了,這個函式就會返回 AIO_CANCELED;如果至少有一個請求沒有被取消,那麼這個函式就會返回AIO_NOT_CANCELED;如果沒有一個請求可以被取消,那麼這個函式就會返回 AIO_ALLDONE。我們然後可以使用 aio_error來驗證每個 AIO 請求。如果這個請求已經被取消了,那麼 aio_error 就會返回 -1,並且 errno 會被設定為 ECANCELED

lio_listio

最後,AIO 提供了一種方法使用 lio_listio API 函式同時發起多個傳輸。這個函式非常重要,因為這意味著我們可以在一個系統呼叫(一次核心上下文切換)中啟動大量的 I/O 操作。從效能的角度來看,這非常重要,因此值得我們花點時間探索一下。lio_listio API 函式的原型如下:

int lio_listio( int mode, struct aiocb *list[], int nent,
                   struct sigevent *sig );

mode 引數可以是 LIO_WAIT 或 LIO_NOWAITLIO_WAIT 會阻塞這個呼叫,直到所有的 I/O 都完成為止。在操作進行排隊之後,LIO_NOWAIT 就會返回。list 是一個 aiocb 引用的列表,最大元素的個數是由 nent 定義的。注意 list 的元素可以為 NULLlio_listio 會將其忽略。sigevent 引用定義了在所有 I/O 操作都完成時產生訊號的方法。

對於 lio_listio 的請求與傳統的 read 或 write 請求在必須指定的操作方面稍有不同,如清單 4 所示。


清單 4. 使用 lio_listio 函式發起一系列請求 
  

struct aiocb aiocb1, aiocb2;
struct aiocb *list[MAX_LIST];

...

/* Prepare the first aiocb */
aiocb1.aio_fildes = fd;
aiocb1.aio_buf = malloc( BUFSIZE+1 );
aiocb1.aio_nbytes = BUFSIZE;
aiocb1.aio_offset = next_offset;
aiocb1.aio_lio_opcode = LIO_READ;

...

bzero( (char *)list, sizeof(list) );
list[0] = &aiocb1;
list[1] = &aiocb2;

ret = lio_listio( LIO_WAIT, list, MAX_LIST, NULL );

對於讀操作來說,aio_lio_opcode 域的值為 LIO_READ。對於寫操作來說,我們要使用 LIO_WRITE,不過 LIO_NOP 對於不執行操作來說也是有效的。


AIO 通知

現在我們已經看過了可用的 AIO 函式,本節將深入介紹對非同步通知可以使用的方法。我們將通過訊號和函式回撥來探索非同步函式的通知機制。

使用訊號進行非同步通知

使用訊號進行程式間通訊(IPC)是 UNIX 中的一種傳統機制,AIO 也可以支援這種機制。在這種範例中,應用程式需要定義訊號處理程式,在產生指定的訊號時就會呼叫這個處理程式。應用程式然後配置一個非同步請求將在請求完成時產生一個訊號。作為訊號上下文的一部分,特定的 aiocb 請求被提供用來記錄多個可能會出現的請求。清單 5 展示了這種通知方法。


清單 5. 使用訊號作為 AIO 請求的通知 
  
void setup_io( ... )
{
  int fd;
  struct sigaction sig_act;
  struct aiocb my_aiocb;

  ...

  /* Set up the signal handler */
  sigemptyset(&sig_act.sa_mask);
  sig_act.sa_flags = SA_SIGINFO;
  sig_act.sa_sigaction = aio_completion_handler;


  /* Set up the AIO request */
  bzero( (char *)&my_aiocb, sizeof(struct aiocb) );
  my_aiocb.aio_fildes = fd;
  my_aiocb.aio_buf = malloc(BUF_SIZE+1);
  my_aiocb.aio_nbytes = BUF_SIZE;
  my_aiocb.aio_offset = next_offset;

  /* Link the AIO request with the Signal Handler */
  my_aiocb.aio_sigevent.sigev_notify = SIGEV_SIGNAL;
  my_aiocb.aio_sigevent.sigev_signo = SIGIO;
  my_aiocb.aio_sigevent.sigev_value.sival_ptr = &my_aiocb;

  /* Map the Signal to the Signal Handler */
  ret = sigaction( SIGIO, &sig_act, NULL );

  ...

  ret = aio_read( &my_aiocb );

}


void aio_completion_handler( int signo, siginfo_t *info, void *context )
{
  struct aiocb *req;


  /* Ensure it's our signal */
  if (info->si_signo == SIGIO) {

    req = (struct aiocb *)info->si_value.sival_ptr;

    /* Did the request complete? */
    if (aio_error( req ) == 0) {

      /* Request completed successfully, get the return status */
      ret = aio_return( req );

    }

  }

  return;
}

在清單 5 中,我們在 aio_completion_handler 函式中設定訊號處理程式來捕獲 SIGIO 訊號。然後初始化 aio_sigevent結構產生 SIGIO 訊號來進行通知(這是通過 sigev_notify 中的 SIGEV_SIGNAL 定義來指定的)。當讀操作完成時,訊號處理程式就從該訊號的 si_value 結構中提取出 aiocb,並檢查錯誤狀態和返回狀態來確定 I/O 操作是否完成。

對於效能來說,這個處理程式也是通過請求下一次非同步傳輸而繼續進行 I/O 操作的理想地方。採用這種方式,在一次資料傳輸完成時,我們就可以立即開始下一次資料傳輸操作。

使用回撥函式進行非同步通知

另外一種通知方式是系統回撥函式。這種機制不會為通知而產生一個訊號,而是會呼叫使用者空間的一個函式來實現通知功能。我們在 sigevent 結構中設定了對 aiocb 的引用,從而可以惟一標識正在完成的特定請求。請參看清單 6。


清單 6. 對 AIO 請求使用執行緒回撥通知 
  
void setup_io( ... )
{
  int fd;
  struct aiocb my_aiocb;

  ...

  /* Set up the AIO request */
  bzero( (char *)&my_aiocb, sizeof(struct aiocb) );
  my_aiocb.aio_fildes = fd;
  my_aiocb.aio_buf = malloc(BUF_SIZE+1);
  my_aiocb.aio_nbytes = BUF_SIZE;
  my_aiocb.aio_offset = next_offset;

  /* Link the AIO request with a thread callback */
  my_aiocb.aio_sigevent.sigev_notify = SIGEV_THREAD;
  my_aiocb.aio_sigevent.notify_function = aio_completion_handler;
  my_aiocb.aio_sigevent.notify_attributes = NULL;
  my_aiocb.aio_sigevent.sigev_value.sival_ptr = &my_aiocb;

  ...

  ret = aio_read( &my_aiocb );

}


void aio_completion_handler( sigval_t sigval )
{
  struct aiocb *req;

  req = (struct aiocb *)sigval.sival_ptr;

  /* Did the request complete? */
  if (aio_error( req ) == 0) {

    /* Request completed successfully, get the return status */
    ret = aio_return( req );

  }

  return;
}

在清單 6 中,在建立自己的 aiocb 請求之後,我們使用 SIGEV_THREAD 請求了一個執行緒回撥函式來作為通知方法。然後我們將指定特定的通知處理程式,並將要傳輸的上下文載入到處理程式中(在這種情況中,是個對 aiocb 請求自己的引用)。在這個處理程式中,我們簡單地引用到達的 sigval 指標並使用 AIO 函式來驗證請求已經完成。


對 AIO 進行系統優化

proc 檔案系統包含了兩個虛擬檔案,它們可以用來對非同步 I/O 的效能進行優化:

  • /proc/sys/fs/aio-nr 檔案提供了系統範圍非同步 I/O 請求現在的數目。
  • /proc/sys/fs/aio-max-nr 檔案是所允許的併發請求的最大個數。最大個數通常是 64KB,這對於大部分應用程式來說都已經足夠了。

結束語

使用非同步 I/O 可以幫助我們構建 I/O 速度更快、效率更高的應用程式。如果我們的應用程式可以對處理和 I/O 操作重疊進行,那麼 AIO 就可以幫助我們構建可以更高效地使用可用 CPU 資源的應用程式。儘管這種 I/O 模型與在大部分 Linux 應用程式中使用的傳統阻塞模式都不同,但是非同步通知模型在概念上來說卻非常簡單,可以簡化我們的設計。