Linux系統——架構淺析

騰訊技術工程發表於2020-04-06

導語:掐指一算自己從研究生開始投入到Linux的海洋也有幾年的時間,即便如此依然對其各種功能模組一知半解。無數次看了Linux核心的技術文章後一頭霧水,為了更系統地更有方法的學Linux,特此記錄。

歷史

1991年,還在芬蘭赫爾辛基大學上學的Linus Torvalds在自己的Intel 386計算機上開發了屬於他自己的第一個程式,並利用Internet釋出了他開發的原始碼,將其命名為Linux,從而建立了Linux作業系統,並在同年公開了Linux的程式碼,從而開啟了一個偉大的時代。在之後的將近30年的時間裡,越來越多的工程師投入到Linux,幫助不斷完善Linux的功能。現在的Linux系統架構憑藉優秀的分層和模組化的設計,融合了大量的裝置和不同的物理架構。

寫這篇文章,也是對Linux系統的一個非常簡單的介紹,主要講解Linux的程式排程、記憶體管理、裝置驅動、檔案系統、網路模組

Linux系統——架構淺析

Linux核心架構圖

上圖就是Linux核心的架構圖,從硬體層--->作業系統核心--->應用層,這套系統架構的設計應用於各類軟硬體結合的系統上,比如物聯網系統,微控制器系統、機器人等領域。

程式排程

程式在Linux系統中稱為process或task。作業系統中程式的資料結構包含很多元素,諸如:地址空間、程式優先順序、程式狀態、訊號量、佔用的檔案等,往往用連結串列連結。

CPU在每個系統滴答(Tick)中斷產生的時候檢查就緒佇列裡邊的程式(遍歷連結串列中的程式結構體),如有符合排程演算法的新程式需要切換,儲存當前執行的程式的資訊(包括棧、地址等)後掛起當前程式,然後執行新的程式,這就是程式排程。

CPU排程的基本依據是程式的優先順序。排程的終極目標是讓高優先順序的程式能及時得到CPU的資源,低優先順序的任務也能公平的分配到CPU資源。不過因為儲存當前程式的資訊所以程式的切換本身是有成本的,排程演算法同樣需要考慮效率。

在早期Linux核心中,就是採用輪詢演算法來實習的,核心在就緒的程式佇列中選擇高優先順序的程式執行,每次執行相等時間,該演算法簡單直觀,但仍然會導致一些低優先順序的程式長時間不能執行。為了提高排程的公平性,在後來Linux核心(2.6)中,引入了CFS排程器演算法。

CFS引入虛擬執行時間的概念,虛擬執行時間用task_struct->se.vruntime表示,通過它來記錄和度量程式應該獲得的CPU執行時間。在理想的排程情況下,任何時候所有的程式都應該有相同的task_struct->se.vruntime值。因為每個程式都是併發執行,沒有程式會超過理想狀態下應該佔有的CPU時間。CFS選擇需要執行的程式的邏輯基於task_struct->se.vruntime值,它總是選擇task_struct->se.vruntime值最小的程式來執行(為了公平)。

CFS使用基於時間排序的紅黑樹來為將來程式的執行時間線。所有的程式按task_struct->se.vruntime關鍵字排序。CFS從樹中選擇最左邊的任務執行。隨著系統執行,執行過的程式會被放到樹的右側,逐步讓每個任務都有機會成為最左邊的程式,從而讓每個程式都能獲取CPU資源。

總的來說,CFS演算法首先選一個程式,當程式切換時,該程式使用的CPU時間會加到該程式task_struct->se.vruntime裡,當task_struct->se.vruntime的值逐漸增大到別的程式變成了紅黑樹最左邊的程式時,最左邊的程式被選中執行,當前的程式被搶佔。

記憶體管理

記憶體,一種硬體裝置,作業系統對其定址,找到對應的記憶體單元,然後對其操作。CPU的位元組長度決定了最大的可定址空間,32位機器最大定址空間是4G Bytes,64位機器最大定址空間是2^64 Bytes。

最大定址空間和實體記憶體大小無關,稱之為虛擬地址空間。Linux核心把虛擬地址空間分為核心空間和使用者空間。每個使用者程式的虛擬地址空間範圍是0~TASK_SIZE。從TASK_SIZE~2^32或2^64的區域保留給核心,不能被使用者程式訪問。

虛擬地址空間與實體記憶體的對映

絕大多數情況下,虛擬地址空間比實際實體記憶體大,作業系統需要考慮如何將實際可用的實體記憶體對映到虛擬地址空間。

Linux核心採用頁表(page table)將虛擬地址對映到實體地址。虛擬地址和程式使用的使用者&核心地址有關,實體地址用來定址實際使用的記憶體。

Linux系統——架構淺析

示例圖

上圖所示,A和B程式的虛擬地址空間被分為大小相等的等份,稱為頁(page)。實體記憶體同樣被分割為大小相等的頁(page  frame)。

程式A第1個記憶體頁對映到實體記憶體(RAM)的第4頁;程式B第1個記憶體頁對映到實體記憶體第5頁。程式A第5個記憶體頁和程式B第1個記憶體頁都對映到實體記憶體的第5頁(核心可決定哪些記憶體空間被不同程式共享)。頁表將虛擬地址空間對映到實體地址空間。

檔案系統

Linux的核心理念:everything is file。Linux系統存在很多檔案系統,比如EXT2,EXT3,EXT4,rootfs,proc等等,每一種檔案系統都是獨立的,有自己的組織方式、操作方法。

為了支援不同的檔案系統,核心在使用者態和檔案系統之間包含了一層虛擬檔案系統(Virtual File System)。大多數核心提供的函式都能通過VFS定義的介面來訪問。例如核心的子系統:字元裝置、塊裝置,管道,socket等。另外,用於操作字元和塊裝置的檔案是在/dev目錄下真實檔案,當讀寫操作執行的時候,其會被對應的驅動程式建立。
Linux系統——架構淺析

VFS結構圖

Linux的虛擬檔案系統四大物件:

1. super block(超級塊)
2. inode(節點)
3. dentry(目錄)
4. block(具體的資料塊)

super block

代表一個具體的已經安裝的檔案系統,包含檔案系統的型別、大小、狀態等等。

inode

代表一個具體的檔案,在Linux檔案管理中,一個檔案除了自身的資料外,還有一個附屬資訊,即檔案的後設資料(metadata),這個後設資料用於記錄檔案的許多資訊比如檔案大小、建立人、建立時間等,這個後設資料就包含在inode中。

inode是檔案從抽象--->具體的關鍵。inode儲存了一些指標,這些指標指向儲存裝置的一些資料塊,檔案的內容就儲存在這些資料塊中。Linux想開啟一個檔案時,只需要找到檔案對應的inode,然後沿著指標,將所有的資料塊攢起來,就可以在記憶體中組成一個檔案的資料了。

Linux系統——架構淺析

inode 結構

inode並不是組織檔案的唯一方式,最簡單的組織檔案的方式,是把檔案依次順序的放入儲存裝置,但如果有刪除操作的話,刪除造成的空餘空間夾雜在正常檔案之間,很難利用和管理;複雜方式可以用來連結串列來做,每個資料塊有個指標,指向屬於同一檔案的下一個資料塊,這樣的好處是可以利用零散的空餘空間,壞處是對檔案的操作必須按照線性方式進行,如果隨機讀取就必須要遍歷連結串列,直到目標位置。由於這一遍歷不是在記憶體進行,所以速度很慢。

inode既可以充分利用空間,在記憶體佔據空間不與儲存裝置相關,解決了上面的問題。但inode也有自己的問題。每個inode能夠儲存的資料塊指標總數是固定的。如果一個檔案需要的資料塊超過這一總數,inode需要額外的空間來儲存多出來的指標。

dentry

代表一個目錄項,是路徑的一部分,比如一個路徑/home/jackycao/hello.txt,那麼目錄項就有home、jackycao、hello.txt。

block

代表具體的資料,一個檔案由分散的多個block組成,組織的方式由inode來指向。

裝置驅動

與外設的互動,說白了就是輸入(input)、操作(operate)、輸出(ouput)的操作。

核心需要完成三件事情:

1. 針對不同的裝置型別實現不同的方法來定址硬體。
2. 必須為使用者空間提供操作不同硬體裝置的方法,且需要一個統一的機制來確保儘量有限的程式設計工作。

3. 讓使用者空間知道在核心中有哪些裝置。

Linux系統——架構淺析

裝置通訊圖

核心訪問外設主要有兩種方式:I/O埠和I/O記憶體對映。具體不展開介紹了。

核心動態接收外設發來的請求(資料)主要通過兩種方式:輪詢和中斷。

輪詢:週期性的訪問查詢裝置是否有資料,如果有,便獲取資料。這種方法比較浪費CPU資源。

中斷:核心思想是外設有請求時主動通知CPU,中斷的優先順序最高,會中斷CPU的當前程式執行,每個CPU都提供了中斷線,每個中斷由唯一的中斷號識別,核心為每個應用的中斷提供一箇中斷處理方法。當有資料已準備好可以給核心或者間接被一個應用程式使用的時候,外設出發一箇中斷。使用中斷確保系統只有在外設需要處理器介入的時候才會通知CPU,提高了效率。

PS:塊和扇區的概念:塊是一個指定大小的位元組序列,用於儲存在核心和裝置間傳輸的資料,塊的大小可以被設定,預設是4096 bytes,扇區是儲存裝置操作的最小單元,預設是512 Bytes,塊是一段連續的扇區。

網路
Linux的網路子系統的模型基於ISO的OSI模型,Linux核心中會簡化相應層級。下圖為Linux使用的TCP/IP參考模型。

Linux系統——架構淺析

網路模型

Host-to-Host層:相當於OSI模型的物理層和資料鏈路層,負責將資料從一個計算機傳輸到另一個計算機。在Linux核心的角度來看,這一層是通過網路卡的裝置驅動程式實現的。

Internet層:相當於OSI模型的網路層,負責讓網路中的計算機可以交換資料(這些計算機並不一定是直連的)。該層同時負責傳輸的包分成指定的大小,因為包在傳輸路徑上每個計算機支援的最大網路包的大小不一樣,在傳輸時資料被分割成不同的包,在接收端再組合。該層為網路中的計算機分配唯一的網路地址。

Transprot層:相當於OSI模型的傳輸層,負責讓兩個連線的計算機上執行的應用程式之間的資料傳輸。比如,兩臺計算機上的客戶端和服務端程式,通過埠號來識別通訊的應用程式。

App層:相當於OSI模型的會話層、表示層、應用層,網路中不同計算機的兩個應用程式建立連線後,這一層負責實際內容的傳輸。

Linux核心子系統的實現通過C程式碼實現,每個層只能和它上下層通訊。

Linux系統——架構淺析

Linux網路分層圖
參考資料
《Linux核心設計與實現》
《Linux核心完全剖析》
《Linux裝置驅動程式

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31559354/viewspace-2658115/,如需轉載,請註明出處,否則將追究法律責任。

相關文章