浮點數的二進位制表示

阮一峰發表於2010-06-06

前幾天，我在讀一本C語言教材，有一道例題：

　　#include <stdio.h>

　　void main(void){

　　　　int num=9; /* num是整型變數，設為9 */

　　　　float* pFloat=&num; /* pFloat表示num的記憶體地址，但是設為浮點數 */

　　　　printf("num的值為：%d\n",num); /* 顯示num的整型值 */

　　　　printf("*pFloat的值為：%f\n",*pFloat); /* 顯示num的浮點值 */

　　　　*pFloat=9.0; /* 將num的值改為浮點數 */

　　　　printf("num的值為：%d\n",num); /* 顯示num的整型值 */

　　　　printf("*pFloat的值為：%f\n",*pFloat); /* 顯示num的浮點值 */

　　}

執行結果如下：

　　num的值為：9
　　*pFloat的值為：0.000000
　　num的值為：1091567616
　　*pFloat的值為：9.000000

我很驚訝，num和*pFloat在記憶體中明明是同一個數，為什麼浮點數和整數的解讀結果會差別這麼大？

要理解這個結果，一定要搞懂浮點數在計算機內部的表示方法。我讀了一些資料，下面就是我的筆記。

在討論浮點數之前，先看一下整數在計算機內部是怎樣表示的。

　　int num=9;

上面這條命令，宣告瞭一個整數變數，型別為int，值為9（二進位制寫法為1001）。普通的32位計算機，用4個位元組表示int變數，所以9就被儲存為00000000 00000000 00000000 00001001，寫成16進位制就是0x00000009。

那麼，我們的問題就簡化成：為什麼0x00000009還原成浮點數，就成了0.000000？

根據國際標準IEEE 754，任意一個二進位制浮點數V可以表示成下面的形式：

　　 $V = (-1)^s\times M\times 2^E$

　　（1）(-1)^s表示符號位，當s=0，V為正數；當s=1，V為負數。

　　（2）M表示有效數字，大於等於1，小於2。

　　（3）2^E表示指數位。

舉例來說，十進位制的5.0，寫成二進位制是101.0，相當於1.01×2^2。那麼，按照上面V的格式，可以得出s=0，M=1.01，E=2。

十進位制的-5.0，寫成二進位制是-101.0，相當於-1.01×2^2。那麼，s=1，M=1.01，E=2。

IEEE 754規定，對於32位的浮點數，最高的1位是符號位s，接著的8位是指數E，剩下的23位為有效數字M。

浮點數的二進位制表示

對於64位的浮點數，最高的1位是符號位S，接著的11位是指數E，剩下的52位為有效數字M。

浮點數的二進位制表示

IEEE 754對有效數字M和指數E，還有一些特別規定。

前面說過，1≤M<2，也就是說，M可以寫成1.xxxxxx的形式，其中xxxxxx表示小數部分。IEEE 754規定，在計算機內部儲存M時，預設這個數的第一位總是1，因此可以被捨去，只儲存後面的xxxxxx部分。比如儲存1.01的時候，只儲存01，等到讀取的時候，再把第一位的1加上去。這樣做的目的，是節省1位有效數字。以32位浮點數為例，留給M只有23位，將第一位的1捨去以後，等於可以儲存24位有效數字。

至於指數E，情況就比較複雜。

首先，E為一個無符號整數（unsigned int）。這意味著，如果E為8位，它的取值範圍為0~255；如果E為11位，它的取值範圍為0~2047。但是，我們知道，科學計數法中的E是可以出現負數的，所以IEEE 754規定，E的真實值必須再減去一箇中間數，對於8位的E，這個中間數是127；對於11位的E，這個中間數是1023。

比如，2^10的E是10，所以儲存成32位浮點數時，必須儲存成10+127=137，即10001001。

然後，指數E還可以再分成三種情況：

（1）E不全為0或不全為1。這時，浮點數就採用上面的規則表示，即指數E的計算值減去127（或1023），得到真實值，再將有效數字M前加上第一位的1。

（2）E全為0。這時，浮點數的指數E等於1-127（或者1-1023），有效數字M不再加上第一位的1，而是還原為0.xxxxxx的小數。這樣做是為了表示±0，以及接近於0的很小的數字。

（3）E全為1。這時，如果有效數字M全為0，表示±無窮大（正負取決於符號位s）；如果有效數字M不全為0，表示這個數不是一個數（NaN）。

好了，關於浮點數的表示規則，就說到這裡。

下面，讓我們回到一開始的問題：為什麼0x00000009還原成浮點數，就成了0.000000？

首先，將0x00000009拆分，得到第一位符號位s=0，後面8位的指數E=00000000，最後23位的有效數字M=000 0000 0000 0000 0000 1001。

由於指數E全為0，所以符合上一節的第二種情況。因此，浮點數V就寫成：

　　V=(-1)^0×0.00000000000000000001001×2^(-126)=1.001×2^(-146)

顯然，V是一個很小的接近於0的正數，所以用十進位制小數表示就是0.000000。

再看例題的第二部分。

請問浮點數9.0，如何用二進位制表示？還原成十進位制又是多少？

首先，浮點數9.0等於二進位制的1001.0，即1.001×2^3。

那麼，第一位的符號位s=0，有效數字M等於001後面再加20個0，湊滿23位，指數E等於3+127=130，即10000010。

所以，寫成二進位制形式，應該是s+E+M，即0 10000010 001 0000 0000 0000 0000 0000。這個32位的二進位制數，還原成十進位制，正是1091567616。

（完）

有趣的二進位制3—浮點數
2017-11-29
八進位制，十六進位制和浮點數
2020-11-14
二進位制小數和IEEE浮點標準
2021-08-31
二進位制轉float浮點數線上計算工具
2024-11-09
單精度浮點數轉化為10進位制數的原理
2020-12-17
C# float浮點數與二進位制相互轉換(IEEE754)
2022-05-04
C#
第一章：位運算-------輸入浮點數，輸出對應二進位制數
2019-03-05
驗證二進位制數字正規表示式
2020-03-24
JavaScript八進位制與二進位制表示法
2018-09-20
JavaScript
JavaScript 八進位制與二進位制表示法
2018-09-20
JavaScript
知多一點二進位制中的負數
2019-02-10
負數的二進位制表示方法
2018-11-18
C++輸入十進位制數，輸出對應二進位制數、十六進位制數
2019-03-04
C++
負數的二進位制數問題
2020-11-28
整數轉化成八進位制、十六進位制、二進位制，以及轉回
2020-10-10
.C++整數的N進位制字串表示
2020-12-01
C++字串
一看就懂二進位制、八進位制、十六進位制數轉換十進位制
2021-07-31
JavaScript 二進位制數字轉換為十進位制
2017-04-01
JavaScript
對於十進位制數 -1023，包含符號位在內，至少需要多少個二進位制位表示該數
2023-05-18
符號
二進位制中1的個數
2019-01-19
1417 二進位制數的大小
2020-12-19
用C#實現二進位制的減法（包括二進位制小數）
2015-11-11
C#
二進位制，八進位制，十進位制，十六進位制的相互轉換
2020-02-01
二進位制與二進位制運算
2021-11-27
深入理解浮點數的表示
2024-10-18
Java中8進位制和16進位制的表示方法
2021-09-09
Java
進位制詳解：二進位制、八進位制和十六進位制
2021-07-07
javascript十進位制數字和二進位制相互轉換
2017-04-08
JavaScript
java中二進位制、八進位制、十進位制、十六進位制的轉換
2018-10-12
Java
二進位制，八進位制，十進位制，十六進位制之間的轉換
2018-07-09
ORACLE使用函式對二進位制、十進位制、十六進位制數互相轉換
2013-11-03
Oracle函式
JavaScript 二進位制、八進位制與十六進位制
2019-12-20
JavaScript
浮點數表示及其實現.
2012-05-30
如何把十進位制的數輸入用二進位制全加器，並以十進位制輸出
2019-03-25
（二進位制）
2020-12-26
二進位制
2024-06-07
十進位制——二 (八、十六 )進位制
2020-10-11
遞迴函式實現十進位制正整數轉換為二進位制，八進位制，十六進位制
2020-10-01
遞迴函式

浮點數的二進位制表示

相關文章