什麼時候選擇mmap而非read?

珠璣位發表於2021-05-02

原文網址 : https://www.cnblogs.com/zhujiwei/p/14726211.html

mmap 和 read 系統流程

在linux檔案系統中，通常使用open(), read()讀取檔案，但作業系統同樣提供了mmap()作為讀取檔案的方式，而這兩者有什麼不同呢？什麼時候用read(), 什麼時候用mmap()？

首先，read 的通常使用方法是 read(fd, buffer, size)，將要讀取的資料讀到buffer中。這就涉及到兩個步驟，read是系統呼叫函式，每次使用read都要進入核心態，進行上下文切換。核心首先將檔案資料從磁碟讀入page cache快取，再將資料從page cache拷貝到buffer中。上下文切換和拷貝要消耗一定效能。

而如果使用 mmap 命令，VFS（虛擬檔案系統）會分配對應的虛擬記憶體空間，記錄目標檔案的 inode 和其他屬性，將起始虛擬地址返回給程式。當程式想要訪問某部分資料時，需要進行地址翻譯，但此時沒有更新頁表，會觸發缺頁中斷。linux根據VMA中記錄的 inode 資訊，呼叫對應的檔案系統進行處理。檔案系統讀取該頁，返回給VFS，VFS再更新頁表，返回對應的物理頁。

在 mmap 之後，後續的讀寫操作都是在記憶體中進行，不需要再讀磁碟和進入核心態。

mmap的優點

因此 mmap 比起 read ，有如下優勢：

對於隨機訪問，不用頻繁 lseek。因為 mmap 是將整個檔案對映到虛擬空間，在讀取時再按需分配實體記憶體。
減少後續系統呼叫次數。後續讀檔案時不需要再進入核心態，減少了上下文切換
減少資料拷貝。免去了page cache 到 buffer 的資料拷貝。
當多個程式將同一頁面對映到記憶體時，資料可以在這些程式之間共享。對於只讀的頁面可以完全共享，需要寫入的檔案可以使用COW(copy on write)私有化。這樣節省了大量記憶體。

mmap also allows the operating system to optimize paging operations. For example, consider two programs; program A which reads in a 1MB file into a buffer creating with malloc, and program B which mmaps the 1MB file into memory. If the operating system has to swap part of A's memory out, it must write the contents of the buffer to swap before it can reuse the memory. In B's case any unmodified mmap'd pages can be reused immediately because the OS knows how to restore them from the existing file they were mmap'd from. (The OS can detect which pages are unmodified by initially marking writable mmap'd pages as read only and catching seg faults, similar to Copy on Write strategy).

mmap 還可以優化作業系統分頁。對於程式A、B，如果A通過 read 讀取了1MB資料到buffer中，而B通過 mmap 讀取1MB資料。如果OS想要把A中的 buffer 換入磁碟，首先要將buffer中的內容寫入磁碟，才可以重用該物理頁。而對於B中沒有被修改過的 mmap 頁，OS可以直接重用，因為OS可以從檔案中再重新讀取該頁來恢復資料。

那麼，如果 mmap 比起 open(),read() 有這麼多優點，為什麼不用 mmap 呢？對於系統來說，有優點往往意味著存在對應的缺點，這才是系統設計中的trade off。

mmap的缺點

mmap 每次以頁為單位從檔案中讀取資料，因此對映的頁面大小始終是整數。對於小檔案可能會造成較多的內部碎片。同時，在讀取資料時也需要顯式修正資料在頁面中的偏移量。
mmap 需要連續的虛擬記憶體空間用於儲存檔案，如果檔案較大，對於32位地址空間的系統來說，可能找不到足夠大的連續區域。
mmap 本身開銷比 read 大，因為mmap涉及更多的系統呼叫，需要觸發缺頁中斷，更改虛擬記憶體對映。

總結

由於read 讀取檔案更加直觀和易於理解，因此初學者依然使用 read 較多。但如果需要隨機訪問資料，或者和其他程式共享資料，用 mmap 不失為一個更好的選擇。

cad選擇框不是矩形怎麼設定 cad選擇物件的時候不是矩形
2022-04-28
物件
C++中什麼時候用move，什麼時候用forward？
2020-10-26
C++Forward
CSS :read-write 選擇器
2019-04-03
CSS
CSS :read-only 選擇器
2019-03-30
CSS
挑選http時候需要注意什麼問題
2021-09-11
HTTP
[提問交流]onethink 模型欄位為什麼只有在新增時候能選擇型別
2020-04-04
模型型別
什麼時候需要自動化什麼時候用自動化?
2020-08-19
什麼時候釋出
2019-05-11
什麼時候能解脫
2024-11-26
2020 年年度總結--任何時候，都有選擇
2020-12-29
新加坡為什麼是ICO的最後選擇，同時也是最佳選擇？
2018-03-07
什麼時候採用socket通訊，什麼時候採用http通訊
2020-10-10
HTTP
python mmap()函式是什麼？
2021-09-11
Python函式
阿里二面：什麼是mmap？
2021-03-17
阿里
什麼時候該用vuex?
2018-09-04
Vue
beego 什麼時候支援grpc
2019-11-22
GoRPC
新版什麼時候釋出？
2020-04-04
到底什麼時候使用mq
2019-01-04
MQ
python什麼時候縮排
2021-09-11
Python
為什麼選擇.NETCore？
2020-11-12
NetCore
選擇資料分析軟體時要注意什麼
2022-02-22
工程師什麼時機最合適選擇跳槽？
2021-09-30
工程師
建設網站的時候網站模板怎麼選擇比較好
2020-06-08
網站
選擇伺服器的時候注意頻寬和速度
2021-01-31
伺服器
session是什麼時候建立的
2018-12-03
Session
Python的類什麼時候用
2021-09-11
Python
Mybatis什麼時候需要宣告jdbcType?
2020-12-12
MyBatisJDBC
即時通訊系統為什麼選擇GaussDB(for Redis)？
2023-04-21
Redis
為什麼選擇Guice框架
2019-04-15
GUI框架
為什麼選擇使用Rust？
2022-03-21
Rust
Aembit為什麼選擇 Rust？
2022-09-17
Rust
win11什麼時候釋出的 win11什麼時候推送詳細介紹
2021-11-12
建站的時候選擇雲主機還是vps主機？
2020-07-15
什麼時候用linux系統多
2020-06-09
Linux
shiro 什麼時候會進入 doGetAuthorizationInfo() ?
2019-03-05
為什麼選擇Cynefin框架？ – zwischenzugs
2021-12-13
框架
為什麼選擇高防DNS？
2022-11-01
DNS
為什麼選擇centos系統
2022-08-13
CentOS

什麼時候選擇mmap而非read?

mmap 和 read 系統流程

mmap的優點

mmap的缺點

總結

相關文章