五分鐘掃盲:程式在計算機中是如何執行起來的

飛天小牛肉發表於2021-04-15

? 盡人事,聽天命。博主東南大學碩士在讀,熱愛健身和籃球,樂於分享技術相關的所見所得,關注公眾號 @ 飛天小牛肉,第一時間獲取文章更新,成長的路上我們一起進步

? 本文已收錄於 「CS-Wiki」Gitee 官方推薦專案,現已累計 1.6k+ star,致力打造完善的後端知識體系,在技術的路上少走彎路,歡迎各位小夥伴前來交流學習

? 如果各位小夥伴春招秋招沒有拿得出手的專案的話,可以參考我寫的一個專案「開源社群系統 Echo」Gitee 官方推薦專案,目前已累計 600+ star,基於 SpringBoot + MyBatis + MySQL + Redis + Kafka + Elasticsearch + Spring Security + ... 並提供詳細的開發文件和配套教程。公眾號後臺回覆 Echo 可以獲取配套教程,目前尚在更新中


本文並不會深入底層暫存器指令與硬體等內容,只是藉此主題為後續記憶體管理章節作掃盲,並幫助各位對分層儲存體系有一個整體的把握,以及一個程式在這樣的儲存體系上,究竟是如何執行起來的,這些儲存器在這個過程又分別扮演了什麼角色。

為什麼設計了分層儲存體系

其實早在作業系統系列開篇的那篇文章中,我就簡單介紹過分層儲存體系(Memory Hierarchy),先來回顧下(這裡我參考的是《現代作業系統 — 第三版》這本書,其他有些資料可能會劃分的更為細緻,不過在理解本文的目的上,以下劃分已經足夠清晰了):

各位不妨想一想,為什麼需要設計出這樣一個分層的儲存體系來供計算機使用呢

首先,有一個觀點不用多說,每個人都希望自己的計算機擁有這樣一個儲存器:它容量無限大,CPU 訪問它的速度無限快,並且能夠永久性的儲存資料(斷電不會丟失資料),而且價格不能太高昂。

But,遺憾的是,現階段的技術仍然滿足不了我們的幻想。

為此,經過多年的探索,人們提出了分層儲存體系的概念,把我們的幻想一個一個拆開對應到不同的儲存器上。

在這個體系中,計算機擁有若干 KB 超級快速、超級昂貴且易失性的暫存器;若干 MB 快速、昂貴且易失性的快取記憶體(cache);若干 GB 的速度與價格都適中、且同樣易失性的記憶體;以及若干 TB 低速、廉價、非易失性的磁碟儲存;另外還有諸如磁帶等可移動的儲存裝置。

至於為什麼這些儲存器的造價不同,那就和它們的成本、材料、製作工藝等息息相關了。暫存器超級快速且超級昂貴的原因就是它和 CPU 的製作材料是相同的,所以 CPU 訪問起來幾乎是沒有時延的。

另外,這裡多提一嘴記憶體,關於記憶體的分類眾說紛紜,我覺得各位對記憶體的概念有大體的把握就行,不必過度死扣細節。

記憶體也經常被人們稱為主存和隨機訪問儲存器(Random Access Memory,RAM),還有我們上文說到記憶體是易失性的,其實這都不是絕對正確的,只不過是通俗的說法並且被大眾所認可。

現在許多計算機都已經在使用少量的非易失性隨機訪問儲存器,也就是隻讀儲存器(Read Only Memory,ROM),它在工廠中就被程式設計完畢,然後再也不能被修改。ROM 速度快並且造價低廉,很多開發商都會把用於啟動計算機的引導載入模組存放在 ROM 中。

裝入記憶體,讓程式跑起來

這裡我先開門見山的總結一下記憶體和磁碟的區別,也方便大家更好的理解下面的例子。通俗來說,記憶體決定了你的計算機能夠同時流暢執行多少個應用程式,而磁碟決定了你的計算機能夠下載安裝多少個應用程式。

舉個例子,這裡面涉及到一個很重要的概念,各位認真看哈:

比方說你的計算機上安裝了 WeChat,你雙擊了 WeChat 快捷方式,作業系統就會開啟 WeChat 軟體。

那麼,各位有沒有想過,在分層的儲存體系上,WeChat 或者各種應用程式在你的計算機上究竟是怎麼跑起來的呢?這些儲存器在這個過程又分別扮演了什麼角色呢?

首先,有一點你要明確,你安裝的 WeChat 軟體是儲存在磁碟中的。軟體安裝的本質是什麼?各位應該也都明白,就是將很多資料的集合儲存到磁碟上。

雙擊 WeChat 快捷方式,作業系統就會知道你要執行這個軟體,它會在磁碟中找到你安裝的 WeChat 軟體,將執行所需要的資料從磁碟中複製到記憶體裡。注意這裡!WeChat 不是直接磁碟中執行的,而是在記憶體中執行的。

至於原因,那當然是記憶體的讀寫速度比磁碟快得多。

所以,為了緩和磁碟之間的速度不匹配問題,程式執行前必須將硬碟上的資料複製到記憶體,CPU 才能夠著手處理,這個過程就叫作載入記憶體(Load into Memory),完成這個過程需要一個不可或缺的程式:載入器或者說載入器(Loader)。

CPU 直接與記憶體進行互動,它會讀取記憶體中的資料進行處理,並將結果返回並儲存到記憶體。當然,如果你還需要將資料儲存到磁碟,複製操作也會在記憶體和磁碟直接發生一次。

比如說,我們開啟了某個 Word 文件,並輸入了一些文字,雖然我們直觀看到的已經發生變化了,但是磁碟中儲存的文件仍然沒有改變,它仍然是之前的資料,新增的文字只是暫時儲存到了記憶體,只有我們手動儲存了這篇文件比如 Ctrl + s 才會將修改儲存到磁碟中。

而由於記憶體是易失性的,也就是說斷電後資料就丟失了,所以如果你編輯完 Word 文件忘記儲存或者斷電導致關機了,那麼你將永遠無法找回這些內容(悲劇 ?)。

暫存器與快取記憶體去哪裡了

讀到這裡,各位肯定會有所困惑,上面不是說了還有快取記憶體嗎?還有暫存器嗎?它們不是也用來儲存的嗎,在這個過程中它們去哪裡了?

OK,從 CPU 的角度來說,記憶體是什麼?就是一個笨逼,它僅僅是一個存放指令和資料的地方,計算機並不能在記憶體中完成計算功能。

若把 CPU 比作人類的靈魂,記憶體和磁碟就是人類的軀體。沒有了 CPU,記憶體和磁碟就淪為一具行屍走肉。當然,沒有了記憶體和磁碟也不行,畢竟 CPU 的儲存能力非常可憐。

比如說我們要計算 a = b + c,必須將變數 a、b、c 從記憶體中讀取到 CPU 內部才能進行加法運算,而在 CPU 中執行運算工作的部件,就是運算單元,可以說運算單元就是 CPU 的大腦。

我們不妨來看一下 CPU 的結構:

可以看出,暫存器(Register)和快取記憶體都直接內嵌在 CPU 中

先說暫存器,其造價高昂且容量有限,功能涵括數學運算、控制程式的執行流程、標記 CPU 執行狀態等。

有些同學可能認為暫存器就是一個部件,其實不然,現代的 CPU 基本都內建了幾十個甚至上百個暫存器,根據功能的不同,這些暫存器也擁有不同的名字。

例如,EAX 暫存器通常被用在加法運算中,用來儲存某個加數或運算結果;EIP 暫存器中儲存的值是下一條指令的地址,CPU 執行完當前指令後,就會根據 EIP 的值去尋找下一條指令,也就是說如果我們改變 EIP 暫存器的值,也就會相應的改變程式的執行流程。

另外,暫存器存放的是二進位制資料,我們常常說 32 位或者 64 位的 CPU,其實指的就是暫存器的位數。

再來看快取,為啥 CPU 裡面還要弄個快取呢?那當然還是離不開讀寫速度的問題,雖然 CPU 訪問記憶體的速度相比於磁碟來說已經足夠快了,But,真要和快取記憶體做個對比,那根本就不是一個數量級的,蚍蜉撼樹罷了。

如果 CPU 每次都從記憶體中讀取資料,會嚴重拖慢其執行速度,CPU 不得不浪費大量的時間來等待記憶體中資料操作的結束。為此,我們在 CPU 內部設定一個快取,將使用頻繁的資料暫時從記憶體中讀取到快取裡來,這樣,如果快取命中,就直接從快取中讀取即可,不必訪問記憶體了。

所以很顯然,快取容量越大的 CPU 其效能就越好。當然,畢竟造價高昂,搞不起超大容量的快取,大小有限,所以對於快取中資料取捨的種種演算法又是一門值得深究的話題。

另外,快取的概念其實並不僅僅侷限於此。只要存在大量的資源可以劃分成小的部分,那麼,這些資源中的某些部分就會比其他部分更頻繁的得到使用,使用快取就可以帶來效能上的改善。在作業系統中,除了 CPU 中的快取,記憶體和硬碟之間其實也有快取的概念,也就是下面我們將要討論的虛擬記憶體。

虛擬記憶體和區域性性原理

虛擬記憶體(Virtual Memory)、虛擬儲存器,這倆其實是一個東西,只不過網路上各種部落格說法不一樣,沒有統一起來,容易讓萌新摸不著頭腦。

上文說的種種只是在執行一個 WeChat 程式的情況下,各位不妨想一下,如果你的電腦記憶體只有 4G,你同時執行了 WeChat、QQ、網易雲音樂、Chrome 等等很多應用程式,假設它們加起來一共需要 5G 的記憶體空間,也就意味著需要從磁碟複製 5G 的資料到只有 4G 儲存空間的記憶體,顯然,這是不可能的。

為此,作業系統中引入了虛擬記憶體的概念。當程式執行需要的儲存空間大於記憶體的容量時,會將記憶體中暫時不用的資料寫回磁碟,當需要這些資料時再從磁碟中重新讀取,而記憶體中存放的資料也就是所謂的熱點資料。這樣,磁碟中就會有一部分空間用來存放記憶體中暫時不用的資料,這一部分空間就叫做虛擬記憶體。我們上面所說的情況就需要在磁碟上分配(5 - 4 = 1G)的虛擬記憶體。

這樣,虛擬記憶體中 "虛擬" 二字的含義也就不言而喻了。只有 4G 記憶體,但是可以正常執行佔用記憶體超過 4G 的應用程式,在使用者看來他似乎擁有了一個比實際記憶體大得多的記憶體。當然,實際的實體記憶體大小並沒有發生改變,只是在邏輯上進行了擴充。

可以這麼理解,引入虛擬記憶體的概念後,在記憶體和磁碟之間,記憶體就充當了快取的作用。CPU 優先從記憶體中獲取資料,如果命中,就不需要去訪問磁碟。這裡和我們上文所說的 CPU 中的快取和記憶體之間的關係是不是一模一樣?

當然,我們為什麼可以這樣做?這些資料為啥就能被調入快取/記憶體呢?虛擬記憶體存在的理論支撐是什麼?這就是著名的區域性性原理。區域性性原理包含兩種,時間區域性性和空間區域性性:

1)時間區域性性原理:如果 CPU 執行了程式中的某條指令,那麼不久後這條指令很有可能再次執行;如果某個資料被訪問過,不久之後該資料很可能再次被訪問;

2)空間區域性性原理:一旦程式訪問了某個儲存單元,在不久之後,其附近的儲存單元也很有可能被訪問,因為很多資料在記憶體中都是連續存放的,並且程式的指令也是順序地在記憶體中存放的。

? 關注公眾號 | 飛天小牛肉,即時獲取更新

  • 博主東南大學碩士在讀,利用課餘時間運營一個公眾號『 飛天小牛肉 』,2020/12/29 日開通,專注分享計算機基礎(資料結構 + 演算法 + 計算機網路 + 資料庫 + 作業系統 + Linux)、Java 技術棧等相關原創技術好文。本公眾號的目的就是讓大家可以快速掌握重點知識,有的放矢。希望大家多多支援哦,和小牛肉一起成長 ?
  • 並推薦個人維護的開源教程類專案: CS-Wiki(Gitee 推薦專案,現已累計 1.6k+ star), 致力打造完善的後端知識體系,在技術的路上少走彎路,歡迎各位小夥伴前來交流學習 ~ ?
  • 如果各位小夥伴春招秋招沒有拿得出手的專案的話,可以參考我寫的一個專案「開源社群系統 Echo」Gitee 官方推薦專案,目前已累計 600+ star,基於 SpringBoot + MyBatis + MySQL + Redis + Kafka + Elasticsearch + Spring Security + ... 並提供詳細的開發文件和配套教程。公眾號後臺回覆 Echo 可以獲取配套教程,目前尚在更新中。

相關文章