關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

sewain 發表於 2021-04-08

一、前言

計算機最喜歡的數字就是 0 和 1,在 CPU 的世界中,它只認識這兩個數字,即使是強大的作業系統,也都是由 0 和 1 組成的。

作為一名軟體開發者,入門學習的內容可能就是認識這 2 個既簡單、又強大的數字。但是大部分人,對於二進位制、二進位制計算、原碼、反碼以及補碼的認識,仍處於機械的強制記憶階段。尤其是對一些編碼和計算,仍然處於模糊的認識階段,例如:

  1. CPU 是如何表示負數的?

  2. 為什麼補碼可以用來表示負數?

  3. 一個 8 位的二進位制數,最小值為什麼是 -128,而不是 -127?

  4. CPU 中的加法器,為什麼可以連同符號位一起運算?

這篇文章我們就來聊聊這個最最基礎的內容,幫助你來理解二進位制計算的相關內容,看完這篇文章之後,不僅知其然,更能知其所以然!

PS: 這裡有點高調了,最終的所以然部分,應該涉及到數學證明這一層次了,本文並不會涉及到求證過程。

二、從十進位制到二進位制

1. 十進位制

作為數學計算能力強大的中國,10 以內的加減法,應該是在幼兒園階段就完成了。如果你不屬於這個範圍,說明你上的是假幼兒園。

我們來快速複習一下關於十進位制運算的一些基本知識:

  1. 每一個數位上包括的數字為 0 到 9;

  2. 每一個數位上的數,是它右側數位的 10 倍;

  3. 兩個數相加時,相同數位上的數相加之和如果大於等於 10,就向前進 1 位,即:滿十進一;

具體來看就是:

  1. 從右數第一個位數(個位)上的數字代表多少個 1;

  2. 從右數第二個位數(十位)上的數字代表多少個 10;

  3. 從右數第三個位數(百位)上的數字代表多少個 100;

  4. 從右數第四個位數(千位)上的數字代表多少個 1000;

十進位制的數,可以使用字尾字母 D 來表示,也可以省略。例如:十進位制的 1234 這個數字,個位上的數是 4, 十位上的數是 3, 百位上的數是 2,千位上的數是 1(一般是從最右側的個位說起),每一個數位上的數比它右側大十倍。
如下圖:

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

十進位制資料,也稱作基於十的表示法

2. 二進位制

那麼對於二進位制呢?直接套用上面十進位制的概念,然後把 10 換成 2 即可(目前先忽略符號位):

  1. 每一個數位上包括的數字為 0 和 1;

  2. 每一個數位上的數,是它右側數位的 2 倍;

  3. 兩個數相加時,相同數位上的數相加之和如果大於等於 2,就向前進 1 位,即:滿二進一;

具體來看就是:

  1. 從右數第一個位數上的數字代表多少個 1;

  2. 從右數第二個位數上的數字代表多少個 2;

  3. 從右數第三個位數上的數字代表多少個 4;

  4. 從右數第四個位數上的數字代表多少個 8;

記住幾個重點:二進位制數中只包含 0 和 1 兩個數字,在相加時滿二進一

在十進位制中,每一個數位我們給它進行了專門的命名(個位、十位、百位...),但是二進位制沒有類似的命名。

二進位制的數,使用字尾字母 B 來表示,例如:二進位制的 1111B 這個數字,用圖來表示權重如下:

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

換算成十進位制數就是 15(1 * 8 + 1 * 4 + 1 * 2 + 1 * 1 = 15)。

在二進位制中,每一位稱為一個位元(bit),如果用 8 個 bit 來表示一個二進位制數,最小值是 0000_00000,最大值是 1111_1111;

如果用 16 個 bit 來表示一個二進位制數,最小值是 0000_0000_0000_0000,最大值是 1111_1111_1111_1111。(為了便於觀察,每 4 個 bit 之間,加上了分隔符)

在早期的計算機中,8 位的處理器很常見,於是就給它一個專門的名字:位元組(Byte)。16 位的二進位制數就是 2 個位元組,也稱作:字(Word)

3. 擴充套件到十六進位制

原理還是相同的:直接把十進位制中的 10 換成 16 即可:

  1. 每一個數位上包括的數字為 0 到 9,A 到 F;

  2. 每一個數位上的數,是它右側數位的 16 倍;

  3. 兩個數相加時,相同數位上的數相加之和如果大於等於 16,就向前進 1 位,即:滿十六進一;

具體來看就是:

  1. 從右數第一個位數上的數字代表多少個 1;

  2. 從右數第二個位數上的數字代表多少個 16;

  3. 從右數第三個位數上的數字代表多少個 256;

  4. 從右數第四個位數上的數字代表多少個 4096;

在十六進位制中,需要十六個數字來表示 0 到 15 這些數字,0 到 9 比較好處理,但是從 10 到 15,我們就需要找一些記號來表示,於是人們就想到用 A,B,C,D,E,F 這幾個字母來分別表示 10 到 15 這個 6 個數字。

十六進位制資料,使用字尾字母 H 來表示,有些場合也可以使用字首 0x 來表示,本質上沒有區別。例如:十六進位制數字 1A2BH(或者寫作 0x1A2B),每一個數位上的權重如圖:

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

換算成十進位制數就是 6699(1 * 4096 + 10 * 256 + 2 * 16 + 11 * 1 = 6699)。

4. 擴充套件到任意進位制

原理仍然相同:直接把十進位制中的 10 換成目標進位制,例如 5 進位制

  1. 每一個數位上包括的數字為 0 到 4;

  2. 每一個數位上的數,是它右側數位的 5 倍;

  3. 兩個數相加時,相同數位上的數相加之和如果大於等於 5,就向前進 1 位,即:滿五進一;

具體來看就是:

  1. 從右數第一個位數上的數字代表多少個 1;

  2. 從右數第二個位數上的數字代表多少個 5;

  3. 從右數第三個位數上的數字代表多少個 25;

  4. 從右數第四個位數上的數字代表多少個 125;

再看一個圖加深印象:

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

三、從十進位制加法到二進位制加法

1. 十進位制加法

這個就不必多說了,規則只有 2 條:

  1. 兩個數,相同數位上的數字進行相加;

  2. 每一個數位上的相加結果,滿十進一;

例如:

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

個位上:4 + 8,結果是 12,但是十進位制中沒有 12 這個數字,因此向左側的高位進1,個位就剩下:12 - 10 = 2。

十位上:7 + 2,再加上進位 1,結果是 10,但是十進位制中沒有 10 這個數字,因此向左側的高位進1,十位變成:10 - 10 = 0。

百位上:1 加上進位 1,結果是 2。

2. 二進位制加法

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

第 0 位:0 + 0 結果為 0;

第 1 位:1 + 0 結果為 1;

第 2 位:1 + 1 結果為 2,但是二進位制中沒有 2 這個數字,因此需要向左側的高位進 1,於是第 2 位上就剩下 2 - 2 = 0。

第 3 位:1 + 1 等於 2,再加上進位 1,結果就是 3,但是二進位制中沒有 3 這個數字,因此需要向左側的高位進 1,於是第 3 位上就剩下 3 - 2 = 1。

第 4,5,6,7位計算均是如此。

3. 十六進位制加法

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

第 0 位:E + C,結果為 26,但是十六進位制中沒有 26 這個數字,因此需要向左側的高位進 1,於是第 0 位就剩下 26 - 16 = A。

第 1 位:A + 1 等於 B,再加上進位 1,結果就是 C,十六機制中有這個數字

四、把負數計算轉換成正數計算

1. 原碼

原碼(true form)是一種計算機中對數字的二進位制定點表示方法。原碼錶示法在數值前面增加了一位符號位(即最高位為符號位):正數該位為0,負數該位為1(0有兩種表示:+0和-0),其餘位表示數值的大小。

例如,用 8 個 bit (8 位二進位制數)來表示一個數,+11 的原碼為 0000_1011,-11 的原碼就是 1000_1011。

2. 把負數計算變成正數計算

我們都知道,CPU 中有加法器,好像從來沒有聽說過“減法器”。例如計算 5 + 8,轉換成二進位制來計算:

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

再來計算一下減法:5 - 8,對於 CPU 來說,只會計算 5 + 8, 但是不會計算 5 - 8。

但是可以轉換一下思路,把減法變成加法 5 + (-8),這樣不就可以計算了嗎?於是計算機先驅者就發明了反碼:

  1. 正數的反碼:保持原碼不變;

  2. 負數的反碼:原碼中符號位不變,其餘全部取反(-8 的原碼是 1000_1000,反碼就是:1111_0111);

於是 5 + (-8)的計算過程就是:

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

此時,就完美解決了減法問題,那麼乘法(多加幾次)、除法(多減幾次)問題也就跟著解決了。至於如何從數學的角度來證明,那就要問那些數學家了!

3. 新問題:如何表示0?

我們現在可以小結一下反碼的表示範圍(記住:第一位是符號位):

  1. 正數的表示範圍:0000_0000 ~ 0111_1111,也就是十進位制的 +0 ~ +127 這 128 個數;

  2. 負數的表示範圍:1000_0000 ~ 1111_1111,也就是十進位制的 -127 ~ -0 這 128 個數;

有沒有發現問題:怎麼存在 +0 和 -0 這兩個數?而且他們的編碼還不一樣:+0 對應 0000_0000,-0 對應 1111_1111。

CPU 雖然就是一個傻瓜,讓它幹啥就幹啥,但是 CPU 最不能容忍的就是不確定性!我們都知道 +0 == -0 == 0,它們是同一個數字,但是在二進位制編碼中,居然有兩個編碼來表示同一個數。

偉大的計算機先驅者又做了這樣一個決定正數保持不變,負數整體減一

也就是說:符號位不變,值整體加1,如下:

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

這樣就成功解決了 -0、+0 的問題!

現在 一個 8 位的二進位制就可以表示的範圍是:-128 ~ 127,並且中間沒有任何重複、遺漏的數字。

既然每一個二進位制表示的值發生了變化,那麼繼續稱之為反碼不準確了,此時給它們一個新的稱呼:補碼,也就是說:上圖就變成了這樣:

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

小結一下補碼的定義:

  1. 正數的補碼:保持原碼不變;

  2. 負數的補碼:原碼中符號位不變,其餘先全部取反,然後再加1(例如:-8 的原碼是 1000_1000,補碼就是 1111_1000);

此時,我們僅僅是解決了二級制編碼的表示問題,那麼:補碼能直接參與運算嗎?運算結果會出現什麼問題?

4. 補碼的計算

我們先看一下這個問題:假設現在時間是 1 點整,但是你的手錶進水了,它顯示的是 3 點整,現在你怎麼把時間調整到 1 點的位置?

方法1:把時針逆時針撥動 2 個小時(3 - 2 = 1);

方法2:把時針順時針撥動 9 個小時到 12 點,然後再撥動 1 個小時(3 + 10 = 1);

對於時鐘錶盤來說,每 12 個小時為一圈,可以認為:-2 == 10,-1 = 11, -3 = 9,同樣的:-2 == 10, -2 == 22, -2 == 34,...

可以看到規律是:-2、10、22、34 這些數字對 12 取模都得到同一個數(取正數),在數學上,兩個整數除以“同一個整數”,若得相同餘數,則這兩個整數同餘

錶盤中的 12 就是這個“同一個整數”,可以看到這是一個可“溢位”的系統,-2、10、22、34 這幾個數在錶盤上表示的是一樣的數,所以說這幾個整數同餘

也就是說:在計算的時候,可以用 10、22、34 這幾個數字來替換 -2,替換之後的計算結果是相同的

那麼對於一個 8 位 的二進位制數來說,最多隻有 8 位,在計算過程中,如果最高位產生了進位,就會被丟棄,所以它也是一個可“溢位”的系統。那麼這裡的“同一個整數”是多少呢?

從前面的內容中可以看到,使用補碼表示的 8 位二進位制數表示的範圍是 -128 ~ 127,一共是 256 個數,所以如果對 256 取模,得到相同的餘數,那麼這些數就是同餘數

例如:-2 和 254 對 256 取模,得到相同的餘數,因此它倆就是同餘數,那麼在計算的時候,就可以用 254 來代替 -2

那麼我們通過計算 3 + (-2) 來驗證一下。

(1) 利用同餘數來計算

3 + (-2) == 3 + 254 = 257

257 超過了最大的表示範圍,所以溢位,結果就是 257 對 256 取模,結果為 1。

(2) 直接用補碼來計算

3 的補碼是 0000_0011,-2 的補碼是 1111_1110,在計算的時候,把符號位也參與運算:

關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂

結果也是 1,也就是說:

在二進位制計算中,使用補碼來計算,“天然”就滿足了“同餘定理”。

細心的讀者可能已經發現了:-2 的二進位制補碼錶示,與 254 的二進位制自然表示,它們的形式是一樣的!

這種“天然”性,是巧合?還是計算機前輩的設計結果?!

五、總結

這篇文章,我們探討了計算機系統的軟體基石:二進位制系統,主要的目的是幫助你理解二進位制的表示、計算方式。

希望你看完之後能夠豁然開朗!如果對您的理解有幫助的話,請轉發給身邊的技術小夥伴,共同成長!

謝謝!


好文章,要轉發;越分享,越幸運!

星標公眾號,能更快找到我!


關於二進位制表示和補碼計算的來龍去脈,入門看了秒懂



推薦閱讀

1. C語言指標-從底層原理到花式技巧,用圖文和程式碼幫你講解透徹
2. 原來gdb的底層除錯原理這麼簡單
3. 一步步分析-如何用C實現物件導向程式設計
4. 都說軟體架構要分層、分模組,具體應該怎麼做(一)
5. 都說軟體架構要分層、分模組,具體應該怎麼做(二)