由淺入深 docker 系列： (5) 資源隔離

lixiang9194發表於2019-05-27

原文網址 : https://learnku.com/articles/28955

上篇文章說了容器只是宿主機中的一個使用者程式，和虛擬機器完全不同，那麼，為什麼在容器內看不到宿主機程式，容器又是如何實現程式、檔案、網路等資源的隔離呢？

這就牽涉到今天要介紹的linux核心的Namespace和Cgroups特性了。

1.Namespace

Linux 核心從版本 2.4.19 開始陸續引入了 Namespace 的概念。其目的是將某個特定的全域性系統資源通過抽象方法使得namespace 中的程式看起來擁有它們自己的隔離的全域性系統資源例項。Linux 核心中實現了六種 Namespace，按照引入的先後順序，列表如下：
Linux Namespace

例如，容器程式啟動時，只要啟用了Mount Namespace，並將自己打包的檔案系統掛載好，就可以實現每個容器僅看到自己的檔案，實現檔案資源的隔離。總之，Docker 守護程式建立容器例項時都啟用了相應的Namespace，使得容器中的程式都處於一種隔離的執行環境之中。

那麼如何啟用相應Namespace呢？

通過系統呼叫clone()來建立一個具有獨立Namespace的程式是最常見的做法，它可以通過flags引數傳入相應標誌位來控制程式的各種狀態，如以下示意程式碼：

pid = clone(fun,stack,flags,clone_arg);
(flags:CLONE_NEWPID  | CLONE_NEWNS |
    CLONE_NEWUSER | CLONE_NEWNUT |
    CLONE_NEWIPC  | CLONE_NEWUTS |
    ...)

docker run中namespace相關引數

--ipc string IPC namespace to use
--pid string PID namespace to use
--userns string User namespace to use
--uts string UTS namespace to use

你可以在容器啟動的時候，指定這些引數，從而強制容器執行在特定namespace之中。例如，你可以指定 --pid host，從而讓容器程式使用宿主機程式空間，此時容器可以看到host上所有的程式（想象這樣一個場景，你把常用的效能診斷工具都打包到一個映象中，然後必要的時候在伺服器上使用此映象進行問題分析，此時加上該引數會很方便）。

2.Cgroups

通過Namespace，容器實現了資源的隔離，從而每個容器看起來都像是擁有自己獨立的執行環境。注意，只是看起來。因為容器使用cpu、記憶體等並不受限制，假如某個容器佔用這些資源過高，就可能會造成其它容器執行遲緩甚至異常，這就需要Cgroups了。

cgroups 的全稱是control groups，是Linux核心提供的一種可以限制單個程式或者多個程式所使用資源的機制，可以對 cpu，記憶體等資源實現精細化的控制。

其典型的子系統如下：

cpu 子系統，主要限制程式的 cpu 使用率。
cpuacct 子系統，可以統計 cgroups 中的程式的 cpu 使用報告。
cpuset 子系統，可以為 cgroups 中的程式分配單獨的 cpu 節點或者記憶體節點。
memory 子系統，可以限制程式的 memory 使用量。
blkio 子系統，可以限制程式的塊裝置 io。
devices 子系統，可以控制程式能夠訪問某些裝置。
net_cls 子系統，可以標記 cgroups 中程式的網路資料包，然後可以使用 tc 模組（traffic control）對資料包進行控制。
freezer 子系統，可以掛起或者恢復 cgroups 中的程式。
ns 子系統，可以使不同 cgroups 下面的程式使用不同的 namespace。

而Cgroups的實現也很有意思，它並不是一組系統呼叫，linux將其實現為了檔案系統，這很符合Unix一切皆檔案的哲學，因此我們可以直接檢視。

例如，我在ubuntu18.04系統中，直接執行mount -t cgroup即可看到，系統已經自動在sys/fs/cgroup目錄下掛載好了相應檔案，每個文夾件代表了上面所講的某種資源型別。

我們可以檢視sys/fs/cgroup/cpu資料夾下的檔案，它代表對cpu資源的控制，其中tasks檔案中是我們系統的程式pid，表示對這些程式進行資源控制，其它檔案如cpu.cfs_quota_us表示cpu的利用率，預設值為-1，表示不做限制。

如何使用Cgroups呢

很簡單，我們可以直接在相應資源控制組目錄下建立資料夾，系統會自動建立需要的檔案，例如，在上述cpu目錄下建立hello目錄，然後看到相應檔案已自動建立。
cgroup/cpu/hello

然後我們寫一個死迴圈，程式碼如下，然後編譯執行

//deadLoop.c
int main(void)
{
    int i = 0;
    for(;;) i++;
    return 0;
}
//編譯 gcc deadLoop.c -o deadLoop
//執行 ./deadLoop

執行top命令，很容易發現，cpu使用率達到了100%左右，怎麼辦呢？

進入剛才建立的hello目錄，將cpu.cfs_quota_us的值改為20000（此參數列示1秒週期內程式使用cpu的最大微秒數，因此20000表示20%），然後將deadLoop程式的Pid寫入tasks檔案中去，再次執行top命令，你將看到cpu使用率只有20%了！

命令如下：

top
cd /sys/fs/cgroup/cpu/hello
echo 20000 > cpu.cfs_quota_us
ps aux | grep deadLoop
echo pid > tasks
top

很直觀吧，其它資源的控制也與此類似。

docker對Cgroups的使用

預設情況下，docker 啟動一個容器後，就會在 /sys/fs/cgroup 目錄下的各個資源目錄下生成以容器 ID 為名字的目錄，在容器被 stopped 後，該目錄被刪除。那麼，對容器資源進行控制的方式，就同上邊的例子一樣，顯而易見了。

至於docker run提供的Cgroups相關引數，就請你自己查閱文件吧。

3.其它

本篇簡單介紹了下Linux核心的Namespace和Cgroups功能，從而理解容器中資源的隔離和控制技術的實現原理，主要是幫助你建立基本的概念，而關於這些功能的使用細節以及核心中的實現原理，還很複雜，想了解的話還需要你投入大量精力。

另外，我們也可以看到，docker並不是全新的技術，它是對很多已有技術的封裝、抽象，只要深入的學習下去，你就會看到很多熟悉的東西，你對容器的理解也會越來越深刻，加油！

參考資料：

Docker背後的核心知識——Namespace資源隔離 - InfoQ

理解Docker（4）：Docker 容器使用 cgroups 限制資源使用

由淺入深 docker 系列： (2) docker 構建
2018-11-16
Docker
由淺入深 docker 系列： (3) docker-compose
2018-11-29
Docker
由淺入深 docker 系列： (6) 映象分層
2019-06-26
Docker
由淺入深 docker 系列：(4) 容器與虛擬機器
2019-01-23
Docker虛擬機
promise由淺入深
2018-03-19
Promise
JavaScript Promise由淺入深
2019-03-05
JavaScriptPromise
MySQL索引由淺入深
2021-03-03
MySql索引
物件導向-由淺入深
2018-12-03
物件
iOS架構由淺入深 | MVVM
2018-08-05
iOS架構MVVM
純手寫Promise，由淺入深
2019-09-26
Promise
由淺入深理解 IOC 和 DI
2020-08-31
Vue.js 2.0 由淺入深
2021-09-09
Vue.js
Yarn資源隔離
2021-09-09
Yarn
第十八節：Skywalking由淺入深
2024-06-18
資源隔離技術之記憶體隔離
2023-03-08
記憶體
由淺入深理解Dubbo的SPI機制
2019-02-26
由淺入深完全理解Java動態代理
2018-05-28
Java
【Fastjson】Fastjson反序列化由淺入深
2021-12-13
ASTJSON
由淺入深！一文5張圖教你做效能測試~
2024-12-07
Git 由淺入深之細說變基 (rebase)
2019-02-27
Git
Oracle 12c系列(三)｜儲存資源隔離 Flex Diskgroup
2018-05-13
OracleFlex
MVP架構由淺入深篇一（基礎版）
2020-09-25
MVP架構
前端如何理解正則-由淺入深的學習
2020-04-03
前端
【由淺入深_打牢基礎】HOST頭攻擊
2022-06-20
C#非同步程式設計由淺入深（一）
2021-03-28
C#非同步程式設計
【由淺入深學MySQL】- MySQL連線查詢詳解
2023-05-12
MySql
Oracle 12c系列(四)｜資源隔離之IO、記憶體、CPU
2018-05-13
Oracle記憶體
由淺入深，從掌握Promise的基本使用到手寫Promise
2022-04-03
Promise
混部之殤-論雲原生資源隔離技術之CPU隔離(一)
2021-05-13
由淺到深瞭解工廠模式
2018-09-26
模式
淺入深出Vue：資料渲染
2019-07-01
Vue
由淺入深地教你開發自己的 React Router v4
2019-02-22
React
由淺入深的來聊聊Golang中select的實現機制
2018-09-09
Golang
kotlin 由淺入深（五）基本語法（空安全、轉換、區間）
2018-04-17
Kotlin
C#非同步程式設計由淺入深（三）細說Awaiter
2022-03-01
C#非同步程式設計AI
白話 Linux 容器資源的隔離限制原理
2021-11-23
Linux
基於hadoop_yarn的資源隔離配置
2021-11-14
HadoopYarn
[轉帖]由淺入深瞭解GC入門篇（一）：什麼是垃圾回收？
2024-05-22
GC

由淺入深 docker 系列： (5) 資源隔離

1.Namespace

2.Cgroups

3.其它

相關文章