底層 Linux 容器執行時之發展史

Daniel Walsh發表於2018-06-14

“容器執行時”是一個被過度使用的名詞。

底層 Linux 容器執行時之發展史

在 Red Hat，我們樂意這麼說，“容器即 Linux，Linux 即容器”。下面解釋一下這種說法。傳統的容器是作業系統中的程序，通常具有如下 3 個特性：

資源限制

當你在系統中執行多個容器時，你肯定不希望某個容器獨佔系統資源，所以我們需要使用資源約束來控制 CPU、記憶體和網路頻寬等資源。Linux 核心提供了 cgroup 特性，可以透過配置控制容器程序的資源使用。
安全性配置

一般而言，你不希望你的容器可以攻擊其它容器或甚至攻擊宿主機系統。我們使用了 Linux 核心的若干特性建立安全隔離，相關特性包括 SELinux、seccomp 和 capabilities。

（LCTT 譯註：從 2.2 版本核心開始，Linux 將特權從超級使用者中分離，產生了一系列可以單獨啟用或關閉的 capabilities）
虛擬隔離

容器外的任何程序對於容器而言都應該不可見。容器應該使用獨立的網路。不同的容器對應的程序應該都可以繫結 80 埠。每個容器的核心映像image、根檔案系統rootfs（rootfs）都應該相互獨立。在 Linux 中，我們使用核心的名字空間namespace特性提供虛擬隔離virtual separation。

那麼，具有安全性配置並且在 cgroup 和名字空間下執行的程序都可以稱為容器。檢視一下 Red Hat Enterprise Linux 7 作業系統中的 PID 1 的程序 systemd，你會發現 systemd 執行在一個 cgroup 下。

# tail -1 /proc/1/cgroup
1:name=systemd:/

ps 命令讓我們看到 systemd 程序具有 SELinux 標籤：

# ps -eZ | grep systemd
system_u:system_r:init_t:s0             1 ?     00:00:48 systemd

以及 capabilities：

# grep Cap /proc/1/status
...
CapEff: 0000001fffffffff
CapBnd: 0000001fffffffff
CapBnd:    0000003fffffffff

最後，檢視 /proc/1/ns 子目錄，你會發現 systemd 執行所在的名字空間。

ls -l /proc/1/ns
lrwxrwxrwx. 1 root root 0 Jan 11 11:46 mnt -> mnt:[4026531840]
lrwxrwxrwx. 1 root root 0 Jan 11 11:46 net -> net:[4026532009]
lrwxrwxrwx. 1 root root 0 Jan 11 11:46 pid -> pid:[4026531836]
...

如果 PID 1 程序（實際上每個系統程序）具有資源約束、安全性配置和名字空間，那麼我可以說系統上的每一個程序都執行在容器中。

容器執行時工具也不過是修改了資源約束、安全性配置和名字空間，然後 Linux 核心執行起程序。容器啟動後，容器執行時可以在容器內監控 PID 1 程序，也可以監控容器的標準輸入/輸出，從而進行容器程序的生命週期管理。

容器執行時

你可能自言自語道，“哦，systemd 看起來很像一個容器執行時”。經過若干次關於“為何容器執行時不使用 systemd-nspawn 工具來啟動容器”的郵件討論後，我認為值得討論一下容器執行時及其發展史。

Docker 通常被稱為容器執行時，但“容器執行時container runtime”是一個被過度使用的詞語。當使用者提到“容器執行時”，他們其實提到的是為開發人員提供便利的上層high-level工具，包括 Docker，CRI-O 和 RKT。這些工具都是基於 API 的，涉及操作包括從容器倉庫拉取容器映象、配置儲存和啟動容器等。啟動容器通常涉及一個特殊工具，用於配置核心如何執行容器，這類工具也被稱為“容器執行時”，下文中我將稱其為“底層容器執行時”以作區分。像 Docker、CRI-O 這樣的守護程序及形如 Podman、Buildah 的命令列工具，似乎更應該被稱為“容器管理器”。

早期版本的 Docker 使用 lxc 工具集啟動容器，該工具出現在 systemd-nspawn 之前。Red Hat 最初試圖將 libvirt （libvirt-lxc）整合到 Docker 中替代 lxc 工具，因為 RHEL 並不支援 lxc。libvirt-lxc 也沒有使用 systemd-nspawn，在那時 systemd 團隊僅將 systemd-nspawn 視為測試工具，不適用於生產環境。

與此同時，包括我的 Red Hat 團隊部分成員在內的上游upstream Docker 開發者，認為應該採用 golang 原生的方式啟動容器，而不是呼叫外部應用。他們的工作促成了 libcontainer 這個 golang 原生庫，用於啟動容器。Red Hat 工程師更看好該庫的發展前景，放棄了 libvirt-lxc。

後來成立開放容器組織Open Container Initiative（OCI）的部分原因就是人們希望用其它方式啟動容器。傳統的基於名字空間隔離的容器已經家喻戶曉，但人們也有虛擬機器級別隔離virtual machine-level isolation的需求。Intel 和 Hyper.sh 正致力於開發基於 KVM 隔離的容器，Microsoft 致力於開發基於 Windows 的容器。OCI 希望有一份定義容器的標準規範，因而產生了 OCI 執行時規範Runtime Specification。

OCI 執行時規範定義了一個 JSON 檔案格式，用於描述要執行的二進位制，如何容器化以及容器根檔案系統的位置。一些工具用於生成符合標準規範的 JSON 檔案，另外的工具用於解析 JSON 檔案並在該根檔案系統（rootfs）上執行容器。Docker 的部分程式碼被抽取出來構成了 libcontainer 專案，該專案被貢獻給 OCI。上游 Docker 工程師及我們自己的工程師建立了一個新的前端工具，用於解析符合 OCI 執行時規範的 JSON 檔案，然後與 libcontainer 互動以便啟動容器。這個前端工具就是 runc，也被貢獻給 OCI。雖然 runc 可以解析 OCI JSON 檔案，但使用者需要自行生成這些檔案。此後，runc 也成為了最流行的底層容器執行時，基本所有的容器管理工具都支援 runc，包括 CRI-O、Docker、Buildah、Podman 和 Cloud Foundry Garden 等。此後，其它工具的實現也參照 OCI 執行時規範，以便可以執行 OCI 相容的容器。

Clear Containers 和 Hyper.sh 的 runV 工具都是參照 OCI 執行時規範執行基於 KVM 的容器，二者將其各自工作合併到一個名為 Kata 的新專案中。在去年，Oracle 建立了一個示例版本的 OCI 執行時工具，名為 RailCar，使用 Rust 語言編寫。但該 GitHub 專案已經兩個月沒有更新了，故無法判斷是否仍在開發。幾年前，Vincent Batts 試圖建立一個名為 nspawn-oci 的工具，用於解析 OCI 執行時規範檔案並啟動 systemd-nspawn；但似乎沒有引起大家的注意，而且也不是原生的實現。

如果有開發者希望實現一個原生的 systemd-nspawn --oci OCI-SPEC.json 並讓 systemd 團隊認可和提供支援，那麼CRI-O、Docker 和 Podman 等容器管理工具將可以像使用 runc 和 Clear Container/runV （Kata）那樣使用這個新的底層執行時。（目前我的團隊沒有人參與這方面的工作。）

總結如下，在 3-4 年前，上游開發者打算編寫一個底層的 golang 工具用於啟動容器，最終這個工具就是 runc。那時開發者有一個使用 C 編寫的 lxc 工具，在 runc 開發後，他們很快轉向 runc。我很確信，當決定構建 libcontainer 時，他們對 systemd-nspawn 或其它非原生（即不使用 golang）的執行 namespaces 隔離的容器的方式都不感興趣。

via: https://opensource.com/article/18/1/history-low-level-container-runtimes

作者：Daniel Walsh 譯者：pinewall 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

容器技術之發展簡史
2020-10-16
Linux發展歷史
2022-02-15
Linux
Linux 學習基礎入門之Linux發展史
2018-12-02
Linux
聊聊我對Linux發展史之淺見
2022-04-21
Linux
【原創】探索容器底層知識之Namespace
2020-08-29
namespace
探索雲端計算容器底層之Cgroup
2020-09-23
Java併發容器，底層原理深入分析
2019-05-25
Java
iOS底層原理 - 常駐執行緒
2018-10-16
iOS執行緒
【原創】探索雲端計算容器底層之Cgroup
2020-08-30
容器進階：OCI與容器執行時
2021-05-16
iOS底層原理多執行緒之GCD 看我就夠了 --(10)
2019-07-25
iOS執行緒GC
Docker容器執行時許可權和Linux系統功能
2019-10-24
DockerLinux
死磕java底層（一）—多執行緒
2021-12-05
Java執行緒
linux 清空歷史執行記錄
2024-07-31
Linux
以 DEBUG 方式深入理解執行緒的底層執行原理
2021-04-27
執行緒
Linux是如何發展壯大的？一圖看盡Linux發展史！
2019-01-03
Linux
【深入 PHP】PHP7 底層執行機制
2019-08-24
PHP
Hive底層執行引擎的深度剖析（免費）
2020-06-02
Hive
MySQL底層概述—3.InnoDB執行緒模型
2024-11-29
MySql執行緒模型
Hive底層原理：explain執行計劃詳解
2021-02-20
HiveAI
.NET Core 執行緒池(ThreadPool)底層原理淺談
2024-12-05
執行緒thread
Linux下快速執行歷史命令的方法
2020-04-16
Linux
iOS底層原理多執行緒之安全鎖以及常用的讀寫鎖 --(11)
2019-07-30
iOS執行緒
由Python歷史「解密」Python底層邏輯
2019-06-24
Python解密
HTTP的發展歷史【積一時之跬步，臻千里之遙程】
2019-05-12
HTTP
Java面試必問之執行緒池的建立使用、執行緒池的核心引數、執行緒池的底層工作原理
2022-02-10
Java面試執行緒
規範使用執行緒池與底層原理詳解
2020-08-12
執行緒
iOS 底層探索之Runloop
2019-09-07
iOSOOP
Android之Context底層原理
2018-03-02
AndroidContext
AOP底層原理之CGlib
2021-09-09
CGLib
史上最全Docker教程，從容器發展史到實操演練(一）
2024-06-03
Docker
當我們的執行 java -jar xxx.jar 的時候底層到底做了什麼？
2022-12-06
JavaJAR
Linux運維第二課—-Linux發展史、環境準備
2018-07-11
Linux運維
無需sudo使用Podman在Linux上執行容器
2022-12-16
Linux
Linux之執行緒互斥鎖
2020-10-08
Linux執行緒
php底層原理之函式
2019-04-14
PHP函式
Java併發程式設計序列之JUC底層AQS
2019-03-03
Java程式設計AQS
containerd容器執行時快速入門使用指南
2024-03-07
AI

底層 Linux 容器執行時之發展史

容器執行時

相關文章