Linux零複製技術淺析

大雄45發表於2020-07-19
導讀 本文探討 中主要的幾種零複製技術以及零複製技術適用的場景。為了迅速建立起零複製的概念,我們拿一個常用的場景進行引入零複製的相關知識。
零複製引文

在寫一個服務端程式時(Web Server或者檔案伺服器),檔案下載是一個基本功能。這時候服務端的任務是:將服務端主機磁碟中的檔案不做修改地從已連線的socket發出去,我們通常用下面的程式碼完成:

while((n = read(diskfd, buf, BUF_SIZE)) > 0)  
    write(sockfd, buf , n);

基本操作就是迴圈的從磁碟讀入檔案內容到緩衝區,再將緩衝區的內容傳送到socket。但是由於Linux的I/O操作預設是緩衝I/O。這裡面主要使用的也就是read和write兩個系統呼叫,我們並不知道作業系統在其中做了什麼。實際上在以上I/O操作中,發生了多次的資料複製。

當應用程式訪問某塊資料時,作業系統首先會檢查,是不是最近訪問過此檔案,檔案內容是否快取在核心緩衝區,如果是,作業系統則直接根據read系統呼叫提供的buf地址,將核心緩衝區的內容複製到buf所指定的使用者空間緩衝區中去。如果不是,作業系統則首先將磁碟上的資料複製的核心緩衝區,這一步目前主要依靠DMA來傳輸,然後再把核心緩衝區上的內容複製到使用者緩衝區中。

接下來,write系統呼叫再把使用者緩衝區的內容複製到網路堆疊相關的核心緩衝區中,最後socket再把核心緩衝區的內容傳送到網路卡上。說了這麼多,不如看圖清楚:

Linux零複製技術淺析Linux零複製技術淺析

從上圖中可以看出,共產生了四次資料複製,即使使用了DMA來處理了與硬體的通訊,CPU仍然需要處理兩次資料複製,與此同時,在使用者態與核心態也發生了多次上下文切換,無疑也加重了CPU負擔。

在此過程中,我們沒有對檔案內容做任何修改,那麼在核心空間和使用者空間來回複製資料無疑就是一種浪費,而零複製主要就是為了解決這種低效性。

什麼是零複製技術(zero-copy)?

零複製主要的任務就是避免CPU將資料從一塊儲存複製到另外一塊儲存,主要就是利用各種零複製技術,避免讓CPU做大量的資料複製任務,減少不必要的複製,或者讓別的元件來做這一類簡單的資料傳輸任務,讓CPU解脫出來專注於別的任務。這樣就可以讓系統資源的利用更加有效。

我們繼續回到引文中的例子,我們如何減少資料複製的次數呢?一個很明顯的著力點就是減少資料在核心空間和使用者空間來回複製,這也引入了零複製的一個型別:讓資料傳輸不需要經過user space。

mmap技術

我們減少複製次數的一種方法是呼叫mmap()來代替read呼叫:

buf = mmap(diskfd, len);  
write(sockfd, buf, len);

應用程式呼叫mmap(),磁碟上的資料會透過DMA被複製的核心緩衝區,接著作業系統會把這段核心緩衝區與應用程式共享,這樣就不需要把核心緩衝區的內容往使用者空間複製。應用程式再呼叫write(),作業系統直接將核心緩衝區的內容複製到socket緩衝區中,這一切都發生在核心態,最後,socket緩衝區再把資料發到網路卡去。同樣的,看圖很簡單:

Linux零複製技術淺析Linux零複製技術淺析

使用mmap替代read很明顯減少了一次複製,當複製資料量很大時,無疑提升了效率。但是使用mmap是有代價的。當你使用mmap時,你可能會遇到一些隱藏的陷阱。例如,當你的程式map了一個檔案,但是當這個檔案被另一個程式截斷(truncate)時, write系統呼叫會因為訪問非法地址而被SIGBUS訊號終止。SIGBUS訊號預設會殺死你的程式併產生一個coredump,如果你的伺服器這樣被中止了,那會產生一筆損失。

通常我們使用以下解決方案避免這種問題:

1. 為SIGBUS訊號建立訊號處理程式

當遇到SIGBUS訊號時,訊號處理程式簡單地返回,write系統呼叫在被中斷之前會返回已經寫入的位元組數,並且errno會被設定成success,但是這是一種糟糕的處理辦法,因為你並沒有解決問題的實質核心。

2. 使用檔案租借鎖

通常我們使用這種方法,在檔案描述符上使用租借鎖,我們為檔案向核心申請一個租借鎖,當其它程式想要截斷這個檔案時,核心會向我們傳送一個實時的RTSIGNALLEASE訊號,告訴我們核心正在破壞你加持在檔案上的讀寫鎖。這樣在程式訪問非法記憶體並且被SIGBUS殺死之前,你的write系統呼叫會被中斷。write會返回已經寫入的位元組數,並且置errno為success。

我們應該在mmap檔案之前加鎖,並且在操作完檔案後解鎖:

if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) {  
       perror("kernel lease set signal");  
   return -1;  
   }  
   /* l_type can be F_RDLCK F_WRLCK  加鎖*/  
   /* l_type can be  F_UNLCK 解鎖*/  
   if(fcntl(diskfd, F_SETLEASE, l_type)){  
       perror("kernel lease set type");  
   return -1;  
   }
sendfile技術

從2.1版核心開始,Linux引入了sendfile來簡化操作:

#include<sys/sendfile.h>  
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

系統呼叫sendfile()在代表輸入檔案的描述符infd和代表輸出檔案的描述符outfd之間傳送檔案內容(位元組)。描述符outfd必須指向一個套接字,而infd指向的檔案必須是可以mmap的。這些侷限限制了sendfile的使用,使sendfile只能將資料從檔案傳遞到套接字上,反之則不行。

使用sendfile不僅減少了資料複製的次數,還減少了上下文切換,資料傳送始終只發生在kernel space。

Linux零複製技術淺析Linux零複製技術淺析

在我們呼叫sendfile時,如果有其它程式截斷了檔案會發生什麼呢?假設我們沒有設定任何訊號處理程式,sendfile呼叫僅僅返回它在被中斷之前已經傳輸的位元組數,errno會被置為success。如果我們在呼叫sendfile之前給檔案加了鎖,sendfile的行為仍然和之前相同,我們還會收到RTSIGNALLEASE的訊號。

目前為止,我們已經減少了資料複製的次數了,但是仍然存在一次複製,就是頁快取到socket快取的複製。那麼能不能把這個複製也省略呢?

藉助於硬體上的幫助,我們是可以辦到的。之前我們是把頁快取的資料複製到socket快取中,實際上,我們僅僅需要把緩衝區描述符傳到socket緩衝區,再把資料長度傳過去,這樣DMA控制器直接將頁快取中的資料打包傳送到網路中就可以了。

總結一下,sendfile系統呼叫利用DMA引擎將檔案內容複製到核心緩衝區去,然後將帶有檔案位置和長度資訊的緩衝區描述符新增socket緩衝區去,這一步不會將核心中的資料複製到socket緩衝區中,DMA引擎會將核心緩衝區的資料複製到協議引擎中去,避免了最後一次複製。

Linux零複製技術淺析Linux零複製技術淺析

不過這一種收集複製功能是需要硬體以及驅動程式支援的。

使用splice

sendfile只適用於將資料從檔案複製到套接字上,限定了它的使用範圍。Linux在2.6.17版本引入splice系統呼叫,用於在兩個檔案描述符中移動資料:

#define _GNU_SOURCE         /* See feature_test_macros(7) */  
   #include  
   ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsignedint flags);

splice呼叫在兩個檔案描述符之間移動資料,而不需要資料在核心空間和使用者空間來回複製。他從fdin複製len長度的資料到fdout,但是有一方必須是管道裝置,這也是目前splice的一些侷限性。flags引數有以下幾種取值:

  1. SPLICEFMOVE :嘗試去移動資料而不是複製資料。這僅僅是對核心的一個小提示:如果核心不能從pipe移動資料或者pipe的快取不是一個整頁面,仍然需要複製資料。Linux最初的實現有些問題,所以從2.6.21開始這個選項不起作用,後面的Linux版本應該會實現。
  1. SPLICEFNONBLOCK :splice 操作不會被阻塞。然而,如果檔案描述符沒有被設定為不可被阻塞方式的 I/O ,那麼呼叫 splice 有可能仍然被阻塞。
  1. SPLICEFMORE:後面的splice呼叫會有更多的資料。

splice呼叫利用了Linux提出的管道緩衝區機制, 所以至少一個描述符要為管道。

以上幾種零複製技術都是減少資料在使用者空間和核心空間複製技術實現的,但是有些時候,資料必須在使用者空間和核心空間之間複製。這時候,我們只能針對資料在使用者空間和核心空間複製的時機上下功夫了。Linux通常利用寫時複製(copy on write)來減少系統開銷,這個技術又時常稱作COW。

由於篇幅原因,本文不詳細介紹寫時複製。大概描述下就是:如果多個程式同時訪問同一塊資料,那麼每個程式都擁有指向這塊資料的指標,在每個程式看來,自己都是獨立擁有這塊資料的,只有當程式需要對資料內容進行修改時,才會把資料內容複製到程式自己的應用空間裡去,這時候,資料才成為該程式的私有資料。如果程式不需要對資料進行修改,那麼永遠都不需要複製資料到自己的應用空間裡。這樣就減少了資料的複製。寫時複製的內容可以再寫一篇文章了。

除此之外,還有一些零複製技術,比如傳統的Linux I/O中加上O_DIRECT標記可以直接I/O,避免了自動快取,還有尚未成熟的fbufs技術,本文尚未覆蓋所有零複製技術,只是介紹常見的一些,如有興趣,可以自行研究,一般成熟的服務端專案也會自己改造核心中有關I/O的部分,提高自己的資料傳輸速率。

原文來自:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2705432/,如需轉載,請註明出處,否則將追究法律責任。

相關文章