Docker容器的原理與實踐（下）

網易雲社群發表於2018-11-22

原文網址 : https://juejin.im/post/5bf6331be51d452b1964a0bc

歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。

Docker原理分析

Docker架構

映象原理

映象是一個只讀的容器模板，含有啟動docker容器所需的檔案系統結構及內容
Docker以映象和在映象基礎上構建的容器為基礎，以容器開發、測試、釋出的單元將應用相關的所有元件和環境進行封裝，避免了應用在不同平臺間遷移所帶來的依賴問題，確保了應用在生產環境的各階段達到高度一致的實際效果。

主要特點

分層
映象採用分層構建，每個映象由一系列的映象層組成, 當需要修改容器內的某個檔案時，只對處於最上方的讀寫層進行變動，不覆蓋下面已有檔案系統的內容。當提交這個修改過的容器檔案系統為一個新的映象時，儲存的內容僅為最上層讀寫檔案系統中被更新過的檔案。

+ bootfs  主要包含bootloader和kernel, bootloader主要是引導載入kernel, 當容器啟動成功後，kernel被載入到記憶體中後而引導檔案系統則會被解除安裝unmount+ rootfs  是容器在啟動時內部程式可見的檔案系統，通常包含一個作業系統執行所需的檔案系統
    + 傳統linux在核心啟動時首先會掛載一個只讀的rootfs，檢測器完整性之後再切換為讀寫模式
    + docker在掛載rootfs時也將其設為只讀模式，掛載完畢後利用聯合掛載技術在已有的只讀rootfs上再掛載一個讀寫層。
    + 只有執行中檔案系統發生變化，才會把變化的內容寫到讀寫層，並隱藏只讀層中的老版本檔案
    + rootfs包含的就是典型Linux系統中的 /dev,/proc,/bin, /etc等標準目錄和檔案。複製程式碼

寫時複製

可以在多個容器之間共享映象，每個容器啟動時不需要單獨複製一份映象檔案
將所有映象層以只讀方式掛載到一個掛載點，在上面覆蓋一個可讀寫的容器層。
寫時複製配合分層機制減少了映象對磁碟空間的佔用和容器啟動時間

內容定址

根據內容來索引映象和映象層
是對映象層的內容計算檢驗和，生成一個內容雜湊值作為映象層的唯一標識
對於來自不同構建的映象層，只要擁有相同的內容雜湊，也能被不同映象共享

聯合掛載
可以在一個掛載點掛載多個檔案系統，將掛載點的原目錄與被掛在內容進行整合，最終可見的檔案系統將包含整合後各層的檔案和目錄

讀寫層處於容器檔案系統的最頂層，其下可能聯合掛載多個只讀層。

儲存管理

為了適應不同平臺不同場景的儲存需求，Docker提供了各種基於不同檔案系統實現的儲存驅動來管理實際的映象檔案

後設資料管理

映象在設計上將後設資料和檔案儲存完全隔離。Docker管理後設資料採用的也正是從上至下repository、image、layer是3個層次。所以repository與image兩個後設資料並無物理上的映象檔案與之對應，layer則存在物理上的映象檔案與之對應。

倉庫後設資料
檔案中儲存了所有版本映象的名字和tag以及對應的映象ID（image/aufs）
映象後設資料
檔案中儲存了映象架構、作業系統、預設配置、該映象的容器ID和配置，構建映象的歷史資訊以及rootfs組成（image/aufs/imagedb/content/sha256）
分層後設資料

映象層
描述不可改變的映象層（image/aufs/layerdb/sha256）
容器層
描述可讀寫的容器層（image/aufs/layerdb/mounts/），讀寫層的ID也對應容器的ID

儲存驅動

為支援寫時複製特性，根據不同作業系統底層的支援提供不同的儲存驅動

aufs（advanced multi layered unification file system）
是一種支援聯合掛載的檔案系統，支援不同目錄掛載到同一個目錄，掛載對使用者來說是透明的。

讀
寫
刪
增
從最頂層的讀寫層開始向下尋找，本層沒有則根據層與層之間的關係到下一層找
如果檔案不存在則在讀寫層新建一個，否則向上面一樣從頂層開始查詢，找到後複製到讀寫層進行修改
如果檔案僅僅在讀寫層則直接刪除；否則需要刪除讀寫層的備份，再在讀寫層中建立whiteout檔案來標誌這個檔案不存在，而不會真正刪除底層檔案(會有.wh.開頭的隱藏檔案)
如果這個檔案在讀寫層存在對應的whiteout檔案則先將whiteout檔案刪除再新建
檔案操作

btrfs
zfs
devicemapper
overlay
overlayFS是一種新型聯合檔案系統，允許一個檔案系統與另外一個檔案系統重疊，在上層檔案系統中記錄更改，而下層的檔案系統保持不變。
vfs
儲存目錄

/var/lib/docker  
               /aufs                                aufs驅動工作的目錄
                    /diff                           mount-id容器層,檔案系統所有層的儲存目錄（下載的映象內容就儲存在這裡）和容器層檔案的差異變化會在這裡出現。
                         /mount-id-init             最後一個只讀層，用於掛載並重新生成dev/etc所列檔案，這些檔案與容器內的環境息息相關，但不適合被打包作為映象的檔案內容，
                                                    又不應該直接修改在宿主機檔案上，所以設計了mountID-init層單獨處理這些檔案。這一層只在容器啟動時新增。
                    /layers                         mount-id儲存上述所有aufs層之間的關係等後設資料,記錄該層所依賴的所有其它層
                    /mnt                            aufs檔案系統的掛載點，graphdriver會將diff中屬於容器映象的所有層目錄以只讀方式掛到mnt 
               /container                           容器配置檔案目錄
               /image 
                     /aufs                          儲存映象與映象層後設資料資訊，真正的映象層內容儲存在aufs/diff
                          /imagedb/content          儲存所有映象的後設資料
                          /layerdb                  儲存所有映象層和容器層的後設資料
                                  /mounts           儲存容器層後設資料
                                         /init-id   init層id,這個layer存放的位置
                                         /mount-id  mount層id,這個layer存放的位置
                                         /parent    父layer的chain-id
                                  /share256         儲存映象層後設資料
                                         /cache-id  該層資料存放的位置，在對應驅動目錄下
                                         /diff      標識每一個layer
                                         /parent    標識父layer的chain-id
                                         /size      存放layer的資料大小
                                         /tar-split.json.gz 存放layer層的json資訊
                          /repositories.json        記錄映象倉庫中所有映象的repository和tag名
               /volumes                             volumes的工作目錄，存放所有volume資料和後設資料

讀寫層、volumes、init-layer、只讀層這幾部分結構共同組成了一個容器所需的檔案系統。
diff-id：通過docker pull下載映象時，映象的json檔案中每一個layer都有一個唯一的diff-idchain-id：chain-id是根據parent的chain-id和自身的diff-id生成的，假如沒有parent，則chain-id等於diff-id，假如有parent，則chain-id等於sha256sum( “parent-chain-id diff-id”)
cache-id：隨機生成的64個16進位制數。cache-id標識了這個layer的資料具體存放位置複製程式碼

資料卷

volume是存在於一個或多個容器中的特定檔案或資料夾，這個目錄以獨立聯合檔案系統的形式存在於宿主機中

特點

容器建立時就會初始化，在容器執行時就可以使用其中的檔案
能在不同的容器中共享和重用
對volume中的資料操作不會影響到映象本身
生命週期獨立，即使刪除容器volume依然存在

Namespace

同一個namespace下的程式可以感知彼此的變化，而對外界程式一無所知

UTS 隔離主機名與域名
IPC 隔離訊號量、訊息佇列和共享記憶體
PID 隔離程式編號

不同的PID namespaces會形成一個層級體系
每個pid namespace的第一個程式 pid 1會像傳統linux的init程式號一樣擁有特權

Net 隔離網路裝置、網路棧、埠
Mount 隔離掛載點（檔案系統）
User 隔離使用者和使用者組

例子

mkdir newroot
cd newroot
cp -r /bin/ binchroot newrootexit複製程式碼

Cgroup

根據需求把一系列的系統任務和子任務整合到按資源劃分等級的不同組內，從而為系統資源管理提供一個統計的框架

主要作用

資源限制
優先順序分配
資源統計
任務控制

主要特點

cgroup的api是以一個為檔案系統的方式實現，使用者態的程式可以通過檔案操作實現cgroup的組織管理
組織管理操作單元可以細粒度到執行緒級別，可以建立和銷燬cgroup從而實現資源再分配和管理
所有資源管理的功能都以子系統的方式實現，介面統一
子任務建立之初與父任務處於同一個cgroups控制組

依賴其他的核心能力

seccomp(secure computing mode)
安全計算模式，這個模式可以設定容器在對系統進行呼叫時進行一些篩選，也就是所謂的白名單。是一種簡潔的sandboxing機制。能使一個程式進入到一種“安全”執行模式，該模式下的程式只能呼叫4種系統呼叫（system calls），即read(), write(), exit()和sigreturn()，否則程式便會被終止。
SELinux
安全增強式Linux（SELinux, Security-Enhanced Linux）是一種強制訪問控制（mandatory access control）的實現
Netlink
用來讓不同的容器之間進行通訊,可用於程式間通訊，Linux核心與使用者空間的程式間、使用者程式間的通訊
Netfilter
Linux核心中的一個軟體框架，用於管理網路資料包。
不僅具有網路地址轉換（NAT）的功能，也具備資料包內容修改、以及資料包過濾等防火牆功能。
AppArmor
類似於selinux，主要的作用是設定某個可執行程式的訪問控制許可權，可以限制程式讀/寫某個目錄/檔案，開啟/讀/寫網路埠等等
capability
Linux把原來和超級使用者相關的高階許可權劃分成為不同的單元，稱為Capability，可以單獨啟用或者關閉, 它打破了UNIX/LINUX作業系統中超級使用者/普通使用者的概念,由普通使用者也可以做只有超級使用者可以完成的工作

網路原理

一些概念

net namespace
隔離網路棧，有自己的介面、路由、防火牆規則
bridge
相當於交換機，為連線在其上的裝置轉發資料幀
veth
相當於交換機上的埠,是一對虛擬網路卡，用於不同網路空間進行通訊的方式,從一張veth網路卡發出的資料包可以直接到達它的peer veth
gateway
就是一個網路連線到另一個網路的“關口”，與本地網路連線的機器會把向外的流量傳遞到此地址中從而使那個地址成為本地子網以外的IP地址的"閘道器".
iptables
linux核心的包過濾系統。在3、4層提供規則鏈對包進行標記、偽裝、轉發等

兩個例子

通過虛擬網路卡實現2個namespace通訊

1、建立虛擬網路環境
ip netns add net0
ip netns add net12、在虛擬的net0環境中執行
ip netns exec net0 ifconfig -aip netns exec net0 ping localhost
ip netns exec net0 ip link set lo up
ip netns exec net0 ping localhost3、建立一對虛擬網路卡
ip link add type veth4、把veth0移動到net0環境裡面，把veth1移動到net1環境裡面
ip link set veth0 netns net0
ip link set veth1 netns net14、配置虛擬網路卡
ip netns exec net0 ip link set veth0 up
ip netns exec net0 ip address add 10.0.1.1/24 dev veth0
ip netns exec net1 ip link set veth1 up
ip netns exec net1 ip address add 10.0.1.2/24 dev veth15、測試
ip netns exec net0 ping -c 3 10.0.1.2ip netns exec net0 ping -c 3 10.0.1.1ip netns exec net1 ping -c 3 10.0.1.1複製程式碼

通過網橋實現多個namespace通訊及外網訪問原理

1、建立虛擬網路環境並連線網線
ip netns add net0
ip netns add net1
ip netns add bridge

ip link add type veth
ip link set dev veth0 name net0-bridge netns net0
ip link set dev veth1 name bridge-net0 netns bridge

ip link add type veth
ip link set dev veth0 name net1-bridge netns net1
ip link set dev veth1 name bridge-net1 netns bridge2、在bridge中建立虛擬網橋
ip netns exec bridge brctl addbr br
ip netns exec bridge ip link set dev br up
ip netns exec bridge ip link set dev bridge-net0 up
ip netns exec bridge ip link set dev bridge-net1 up
ip netns exec bridge brctl addif br bridge-net0
ip netns exec bridge brctl addif br bridge-net1
ip netns exec bridge brctl show3、配置虛擬環境網路卡
ip netns exec net0 ip link set dev net0-bridge up
ip netns exec net0 ip address add 10.0.1.1/24 dev net0-bridge

ip netns exec net1 ip link set dev net1-bridge up
ip netns exec net1 ip address add 10.0.1.2/24 dev net1-bridge4、測試
ip netns exec net0 ping -c 3 10.0.1.2ip netns exec net1 ping -c 3 10.0.1.1ip netns exec bridge ping -c 3 10.0.1.25、需要給當前網路環境配置一個網路卡ip不然沒有網路路由網路不可達
ip netns exec bridge ip address add 10.0.1.3/24 dev br6、想要ping宿主機網路怎麼辦？
ip netns exec bridge ping 192.168.99.100ip link add A type veth peer name B
ip link set B netns bridge
ip netns exec bridge ip link set dev B up

ip link set A up6、給AB網路卡配置ip
ip netns exec bridge ip address add 172.22.0.11/24 dev B
ip address add 172.22.0.10/24 dev A7、設定bridge預設閘道器
ip netns exec bridge route add default gw 172.22.0.10ip netns exec bridge ping 192.168.99.1008、設定net0預設閘道器
ip netns exec net0 ping 192.168.99.100ip netns exec net0 route add default gw 10.0.1.3ip netns exec net0 ping 192.168.99.100 不通9、地址偽裝
ip netns exec bridge iptables -t nat -A POSTROUTING -o B -j MASQUERADE
ip netns exec net0 ping 192.168.99.10010、讓虛擬網路卡訪問外網
ip netns exec net0 ping 8.8.8.8iptables -t filter -I FORWARD -o A -j ACCEPT
iptables -t filter -I FORWARD -i A -j ACCEPT
iptables -t nat -A POSTROUTING -o eth0 -s 172.22.0.0/24 -j MASQUERADE11、vbox訪問mac地址
ip netns exec bridge ping 192.168.99.1iptables -t nat -A POSTROUTING -o eth1 -j MASQUERADE
ip netns exec bridge ping 192.168.99.1複製程式碼

影響網路連通的幾個要素

核心是否開啟IP轉發支援
cat /proc/sys/net/ipv4/ip_forward
sysctl -w net.ipv4.ip_forward=1
防火牆轉發規則是否開啟
是否開啟IP地址偽裝
是否正確設定閘道器

CNM網路模型

沙盒,一個沙盒包含了一個容器網路棧資訊。沙盒可以對容器的介面、路由和DNS設定等進行管理。一個沙盒可以有多個端點和多個網路。
端點,一個端點可以加入一個沙盒和一個網路。端點的實現可以使veth pair、open vSwitch內部埠。
網路,一個網路是一組可以互相聯通的端點。網路的實現可以是linux bridge、VLAN等。

內建驅動

bridge
預設設定,libnetwork將建立出來的容器連線到docker網橋。其與外界使用NAT.

操作例子

  docker network create br3
  docker run -itd --name busybox-bridge --net=br3 busybox

  docker run -itd --name busybox-bridge-none busybox
  docker network connect br3 busybox-bridge-none
  檢視容器網路和宿主機網橋及其上埠複製程式碼

host
libnetwork不為docker容器建立網路協議棧及獨立的network namespace。

容器使用宿主機的網路卡、IP、埠、路由、iptable規則
host驅動很好的解決了容器與外界通訊的地址轉換問題，但也降低了容器與容器建、容器與宿主機之間的網路隔離性，引起網路資源競爭的衝突。
例子
```
docker run -itd --name busybox-host --net=host busybox複製程式碼
```

container

指定新建立的容器和已存在的容器共享一個網路空間

兩個容器的程式可以通過lo網路卡裝置通訊

例子

docker run -itd --name busybox busyboxdocker run -itd --name busybox-container --net=container:busybox-bridge busybox複製程式碼

none
容器擁有自己的network namespace，但不進行任何網路配置。
例子

docker run -itd --name busybox-none --net=none busybox複製程式碼

overlay

使用標準的VXLAN
使用過程中需要一個額外的配置儲存服務如consul、etcd、Zookeeper
需要在daemon啟動的時候額外新增引數來指定配置儲存服務地址

remote
實現外掛化，呼叫使用者自行實現的網路驅動外掛

DNAT來實現外部訪問容器

docker run -itd -p 9901:991 --name busybox-dnat busybox複製程式碼

容器雲平臺

雲平臺廠家

網易雲容器服務
時速雲
靈雀雲
有容雲
阿里雲容器服務
騰訊雲容器服務

如果你從頭看到尾那真是太棒了，如果你也對docker技術感興趣歡迎popo(hzchenzhiliang@corp.netease.com)聯絡交流。

相關閱讀：Docker容器的原理與實踐（上）

本文來自網易實踐者社群，經作者陳志良授權釋出。

相關文章：
【推薦】 KOL運營之——如何與網文作者高效地約稿？
【推薦】 ThreeJs 3D 全景專案開發總結
【推薦】移動端爬蟲工具與方法介紹

實踐：Docker容器與映象管理
2020-06-18
Docker
Docker容器編排技術解析與實踐
2024-04-01
Docker
最火的容器技術|Docker入門與實踐
2019-04-10
Docker
Docker進階與實踐之六：容器卷管理
2019-06-15
Docker
使用Portainer部署Docker容器實踐
2021-04-10
AIDocker
Kubernetes+Docker+Istio 容器雲實踐
2019-10-17
Docker
Docker容器日誌管理最佳實踐
2019-05-23
Docker
Docker 容器監控原理及 cAdvisor 的安裝與使用
2020-11-17
Docker
docker容器技術原理
2021-03-25
Docker
Pod和容器的LimitRange原理和實踐總結
2021-01-29
MIT
Docker通訊全視角：原理、實踐與技術洞察
2024-07-17
Docker
angr原理與實踐（一）——原理
2022-07-15
Webpack原理與實踐
2021-12-30
Web
使用Docker容器化SpringBoot+Dubbo應用的實踐
2019-03-01
DockerSpring Boot
Docker 入門與實踐
2018-04-18
Docker
Docker容器實現原理及容器隔離性踩坑介紹
2019-07-16
Docker
wsl 下的 docker 開發實踐（上）
2018-06-24
Docker
Flutter原理與美團的實踐
2018-08-10
Flutter
Spring Boot Enable* 的原理與實踐
2018-04-12
Spring Boot
Flink Sql Gateway的原理與實踐
2021-12-21
SQLGateway
Docker CheatSheet | Docker 配置與實踐清單
2018-09-18
Docker
Vue CLI 原理與實踐
2020-12-02
Vue
MelGan原理與實踐篇
2020-12-15
Docker筆記（十三）：容器日誌採集實踐
2020-04-03
Docker筆記
Docker進階與實踐之三：Docker映象
2019-05-18
Docker
虛擬機器與容器的混合管理實踐
2021-11-10
虛擬機
Redis核心原理與實踐--事務實踐與原始碼分析
2021-11-10
Redis原始碼
代理重加密原理與實踐
2024-04-15
加密
mysql 複製原理與實踐
2018-12-28
MySql
JDK ThreadPoolExecutor核心原理與實踐
2021-12-21
JDKthread
Spark Connector Reader 原理與實踐
2020-12-17
Spark
docker 容器的使用與檢視
2020-11-20
Docker
Linux容器與Docker的對比
2022-01-05
LinuxDocker
docker容器與映象的區別
2021-06-08
Docker
宿主機與容器可以ping通實踐
2020-11-13
WebSocket原理與實踐(一)---基本原理
2018-03-04
Web
Redis核心原理與實踐--列表實現原理之ziplist
2021-09-16
Redis
Docker 容器搭建及 Redis 叢集原理
2019-06-15
DockerRedis

Docker容器的原理與實踐 （下）

Docker原理分析

Docker架構

映象原理

主要特點

儲存管理

後設資料管理

儲存驅動

資料卷

Namespace

Cgroup

主要作用

主要特點

相關術語

依賴其他的核心能力

網路原理

一些概念

兩個例子

CNM網路模型

內建驅動

容器雲平臺

相關文章

Docker容器的原理與實踐（下）