PouchContainer支援LXCFS實現高可靠容器隔離

allencloud發表於2018-04-11

引言

PouchContainer 是 Alibaba 開源的一款容器執行時產品,當前最新版本是 0.3.0,程式碼地址位於:https://github.com/alibaba/pouch。PouchContainer 從設計之初即支援 LXCFS,實現高可靠容器隔離。Linux 使用 cgroup 技術實現資源隔離,然而容器內仍然掛載宿主機的 /proc 檔案系統,使用者在容器內讀取 /proc/meminfo 等檔案時,獲取的是宿主機的資訊。容器內缺少的 /proc 檢視隔離會帶來一系列的問題,進而拖慢或阻礙企業業務容器化。LXCFS (https://github.com/lxc/lxcfs) 是開源 FUSE 檔案系統,用以解決 /proc 檢視隔離問題,使容器在表現層上更像傳統的虛擬機器。本文首先介紹 LXCFS 適用業務場景,然後剖析 LXCFS 的原理,最後簡要介紹 LXCFS 在 PouchContainer 內部整合的工作。

LXCFS 業務場景

在物理機和虛擬機器時代,公司內部逐漸形成了自己的一套工具鏈,諸如編譯打包、應用部署、統一監控等,這些工具已經為部署在物理機和虛擬機器中的應用提供了穩定的服務。接下來將從監控、運維工具、應用部署等方面詳細闡述 LXCFS 在上述業務容器化過程中發揮的作用。

監控和運維工具

大部分的監控工具,依賴 /proc 檔案系統獲取系統資訊。以阿里巴巴為例,阿里巴巴的部分基礎監控工具是通過 tsar(https://github.com/alibaba/tsar) 收集資訊。而 tsar 對記憶體、CPU 資訊的收集,依賴 /proc 檔案系統。我們可以下載 tsar 的原始碼,檢視 tsar 對 /proc 目錄下一些檔案的使用:

$ git remote -v
origin    https://github.com/alibaba/tsar.git (fetch)
origin    https://github.com/alibaba/tsar.git (push)
$ grep -r cpuinfo .
./modules/mod_cpu.c:    if ((ncpufp = fopen("/proc/cpuinfo", "r")) == NULL) {
:tsar letty$ grep -r meminfo .
./include/define.h:#define MEMINFO "/proc/meminfo"
./include/public.h:#define MEMINFO "/proc/meminfo"
./info.md:記憶體的計數器在/proc/meminfo,裡面有一些關鍵項
./modules/mod_proc.c:    /* read total mem from /proc/meminfo */
./modules/mod_proc.c:    fp = fopen("/proc/meminfo", "r");
./modules/mod_swap.c: * Read swapping statistics from /proc/vmstat & /proc/meminfo.
./modules/mod_swap.c:    /* read /proc/meminfo */
$ grep -r diskstats .
./include/public.h:#define DISKSTATS "/proc/diskstats"
./info.md:IO的計數器檔案是:/proc/diskstats,比如:
./modules/mod_io.c:#define IO_FILE "/proc/diskstats"
./modules/mod_io.c:FILE *iofp;                     /* /proc/diskstats*/
./modules/mod_io.c:    handle_error("Can`t open /proc/diskstats", !iofp);

可以看到,tsar 對程式、IO、CPU 的監控都依賴 /proc 檔案系統。

當容器內 /proc 檔案系統提供的是宿主機資源資訊時,這類監控不能監控容器內資訊。為了滿足業務需求,需要適配容器監控,甚至需要單獨為容器內監控開發另一套監控工具。這種改變勢必會拖慢甚至阻礙企業現存業務容器化的步伐,容器技術要儘可能相容公司原有的工具鏈,兼顧工程師的使用習慣。

PouchContainer 支援 LXCFS 可以解決上述問題,依賴 /proc 檔案系統的監控、運維工具,部署在容器內或宿主機上對工具是透明的,現存監控、運維工具無需適配或重新開發,即可平滑遷移到容器內,實現容器內的監控和運維。

接下來讓我們從例項中直觀感受一下,在一臺 Ubuntu 虛擬機器中安裝 PouchContainer 0.3.0 :

# uname -a
Linux p4 4.13.0-36-generic #40~16.04.1-Ubuntu SMP Fri Feb 16 23:25:58 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux

systemd 拉起 pouchd ,預設不開啟 LXCFS,此時建立的容器無法使用 LXCFS 的功能,我們看一下容器內相關 /proc 檔案的內容:

# systemctl start pouch
# head -n 5 /proc/meminfo
MemTotal:        2039520 kB
MemFree:          203028 kB
MemAvailable:     777268 kB
Buffers:          239960 kB
Cached:           430972 kB
root@p4:~# cat /proc/uptime
2594341.81 2208722.33
# pouch run -m 50m -it registry.hub.docker.com/library/busybox:1.28
/ # head -n 5 /proc/meminfo
MemTotal:        2039520 kB
MemFree:          189096 kB
MemAvailable:     764116 kB
Buffers:          240240 kB
Cached:           433928 kB
/ # cat /proc/uptime
2594376.56 2208749.32

可以看到,在容器內看到的 /proc/meminfo、uptime 檔案的輸出與宿主機一致,雖然啟動容器的時候指定了記憶體為 50M,/proc/meminfo 檔案並未體現出容器內的記憶體限制。

在宿主機內啟動 LXCFS 服務,手動拉起 pouchd 程式,並指定相應的 LXCFS 相關引數:

# systemctl start lxcfs
# pouchd -D --enable-lxcfs --lxcfs /usr/bin/lxcfs >/tmp/1 2>&1 &
[1] 32707
# ps -ef |grep lxcfs
root       698     1  0 11:08 ?        00:00:00 /usr/bin/lxcfs /var/lib/lxcfs/
root       724 32144  0 11:08 pts/22   00:00:00 grep --color=auto lxcfs
root     32707 32144  0 11:05 pts/22   00:00:00 pouchd -D --enable-lxcfs --lxcfs /usr/bin/lxcfs

啟動容器,獲取相應的檔案內容:

# pouch run --enableLxcfs -it -m 50m registry.hub.docker.com/library/busybox:1.28
/ # head -n 5 /proc/meminfo
MemTotal:          51200 kB
MemFree:           50804 kB
MemAvailable:      50804 kB
Buffers:               0 kB
Cached:                4 kB
/ # cat /proc/uptime
10.00 10.00

使用 LXCFS 啟動的容器,讀取容器內 /proc 檔案,可以得到容器內的相關資訊。

業務應用

對於大部分對系統依賴較強的應用,應用的啟動程式需要獲取系統的記憶體、CPU 等相關資訊,從而進行相應的配置。當容器內的 /proc 檔案無法準確反映容器內資源的情況,會對上述應用造成不可忽視的影響。

例如對於一些 Java 應用,也存在啟動指令碼中檢視 /proc/meminfo 動態分配執行程式的堆疊大小,當容器記憶體限制小於宿主機記憶體時,會發生分配記憶體失敗引起的程式啟動失敗。對於 DPDK 相關應用,應用工具需要根據 /proc/cpuinfo 獲取 CPU 資訊,得到應用初始化 EAL 層所使用的 CPU 邏輯核。如果容器內無法準確獲取上述資訊,對於 DPDK 應用而言,則需要修改相應的工具。

PouchContainer 整合 LXCFS

PouchContainer 從 0.1.0 版開始即支援 LXCFS,具體實現可以參見: https://github.com/alibaba/pouch/pull/502 .

簡而言之,容器啟動時,通過-v 將宿主機上 LXCFS 的掛載點 /var/lib/lxc/lxcfs/proc/ 掛載到容器內部的虛擬 /proc 檔案系統目錄下。此時在容器內部 /proc 目錄下可以看到,一些列proc檔案,包括 meminfo, uptime, swaps, stat, diskstats, cpuinfo 等。具體使用引數如下:

-v /var/lib/lxc/:/var/lib/lxc/:shared
-v /var/lib/lxc/lxcfs/proc/uptime:/proc/uptime 
-v /var/lib/lxc/lxcfs/proc/swaps:/proc/swaps 
-v /var/lib/lxc/lxcfs/proc/stat:/proc/stat 
-v /var/lib/lxc/lxcfs/proc/diskstats:/proc/diskstats 
-v /var/lib/lxc/lxcfs/proc/meminfo:/proc/meminfo 
-v /var/lib/lxc/lxcfs/proc/cpuinfo:/proc/cpuinfo

為了簡化使用,pouch create 和 run 命令列提供引數 --enableLxcfs, 建立容器時指定上述引數,即可省略複雜的 -v 引數。

經過一段時間的使用和測試,我們發現由於lxcfs重啟之後,會重建proc和cgroup,導致在容器裡訪問 /proc 出現 connect failed 錯誤。為了增強 LXCFS 穩定性,在 PR:https://github.com/alibaba/pouch/pull/885 中,refine LXCFS 的管理方式,改由 systemd 保障,具體實現方式為在 lxcfs.service 加上 ExecStartPost 做 remount 操作,並且遍歷使用了 LXCFS 的容器,在容器內重新 mount。

總結

PouchContainer 支援 LXCFS 實現容器內 /proc 檔案系統的檢視隔離,將大大減少企業存量應用容器化的過程中原有工具鏈和運維習慣的改變,加快容器化進度。有力支撐企業從傳統虛擬化到容器虛擬化的平穩轉型。


相關文章