C/C++浮點數在記憶體中的儲存方式

saucej發表於2014-12-17

任何資料在記憶體中都是以二進位制的形式儲存的,例如一個short型資料1156,其二進位制表示形式為00000100 10000100。則在Intel CPU架構的系統中,存放方式為  10000100(低地址單元) 00000100(高地址單元),因為Intel CPU的架構是小端模式。但是對於浮點數在記憶體是如何儲存的?目前所有的C/C++編譯器都是採用IEEE所制定的標準浮點格式,即二進位制科學表示法。float遵從的是IEEE R32.24 ,而double 遵從的是R64.53。

 在二進位制科學表示法中,S=M*2^N 主要由三部分構成:符號位+階碼(N)+尾數(M)。對於float型資料,其二進位制有32位,其中符號位1位,階碼8位,尾數23位;對於double型資料,其二進位制為64位,符號位1位,階碼11位,尾數52位。

                31        30-23       22-0

float       符號位     階碼        尾數

                63        62-52       51-0

double    符號位     階碼        尾數

符號位:0表示正,1表示負

階碼:這裡階碼採用移碼錶示,對於float型資料其規定偏置量為127,階碼有正有負,對於8位二進位制,則其表示範圍為-128-127,double型規定為1023,其表示範圍為-1024-1023。比如對於float型資料,若階碼的真實值為2,則加上127後為129,其階碼錶示形式為10000010

尾數:有效數字位,即部分二進位制位(小數點後面的二進位制位),因為規定M的整數部分恆為1,所以這個1就不進行儲存了。

下面舉例說明:

float型資料125.5轉換為標準浮點格式

125二進位制表示形式為1111101,小數部分表示為二進位制為 1,則125.5二進位制表示為1111101.1,由於規定尾數的整數部分恆為1,則表示為1.1111011*2^6,階碼為6,加上127為133,則表示為10000101,而對於尾數將整數部分1去掉,為1111011,在其後面補0使其位數達到23位,則為11110110000000000000000

則其二進位制表示形式為

0 10000101 11110110000000000000000,則在記憶體中存放方式為:

00000000   低地址

00000000

11111011

01000010   高地址

-------------------------------------------

現在反過來根據二進位制形式求浮點數

0 10000101 11110110000000000000000

由於符號為為0,則為正數。

階碼為133-127=6,尾數為11110110000000000000000,則其真實尾數為1.1111011。所以其大小為

1.1111011*2^6,將小數點右移6位,得到1111101.1,而1111101的十進位制為125,0.1的十進位制為1*2^(-1)=0.5,所以其大小為125.5。

-------------------

同理若將float型資料0.5轉換為二進位制形式

0.5的二進位制形式為0.1,由於規定正數部分必須為1,將小數點右移1位,則為1.0*2^(-1),其階碼為-1+127=126,表示為01111110,而尾數1.0去掉整數部分為0,補齊0到23位00000000000000000000000,則其二進位制表示形式為

0 01111110 00000000000000000000000

由上分析可知float型資料最大表示範圍為1.11111111111111111111111*2^127=3.4*10^38

對於double型資料情況類似,只不過其階碼為11位,偏置量為1023,尾數為52位。

 

 

 

 

相關文章