以下是參考《IEEE754 學習總結》並結合自己學習總結
一:前言
二:預備知識
三:浮點數的表示範圍
四:將浮點格式轉換成十進位制數
一:前言
前不久在分析一個程式的過程中遇到了浮點運算,也就順便學習了一下浮點數的存放格式(IEEE754標準),此文僅作為總結,其中舉了幾個典型的例子,如果你想深入瞭解IEEE754標準,我想本文並不太適合您。
二:預備知識
-----------------------------------------------------------------------
值 儲存為 指數偏移量(階碼) 尾數部分
real*4 1位符號位(s)、8位指數(e),23位尾數(m,共32位) 127(7FH)
real*8 1位符號位(s)、11位指數(e),52位尾數(m,共64位) 1023(3FFH)
real*10 1位符號位(s)、15位指數(e),64位尾數(m,共80位) 16383(3FFFH)
-----------------------------------------------------------------------
計算公式:
V=(-1)^s*2^E*M
當e(各位)為全'0'時,E=1-(2^(e(位數)-1)-1),;M=m。
如:real*4是8位,E=1-(2^(8-1)-1)=1-127=-126
即,
在real*4時:
V=(-1)^s*2^(-126)*m
在real*8時:
V=(-1)^s*2^(-1022)*m
當e(各位)不為全'0'且不為全'1'時,E=e(值)-(2^(e(位數)-1)-1);M=1+m。
即,
在real*4時:
V=(-1)^s*2^(e(值)-127)*(1+m)
在real*8時:
V=(-1)^s*2^(e(值)-1023)*(1+m)
三:浮點數的表示範圍:
通常,可以用下面的格式來表示浮點數:
S | P | M |
根據IEEE(美國電氣和電子工程師學會)754標準中的定 義,單精度(Single Precision)浮點數是32位(即4位元組)的,雙精度(Double Precision)浮點數是64位(即8位元組)的。兩者的S、P、M所佔的位數以及表示方法由下表可知:
S | P | M | 表示公式 | 偏移量 | |
單精度浮點數 |
1(第31位) |
8(30到23位) |
23(22到0位) |
(-1)^S*2(P-127)*1.M |
127 |
雙精度浮點數 |
1(第63位) |
11(62到52位) |
52(51到0位) |
(-1)^S*2(P-1023)*1.M |
1023 |
P是階碼,通常使用移碼錶示(移碼和補碼只有符號位相 反,其餘都一樣。對於正數而言,原碼、反碼和補碼都一樣;對於負數而言,補碼就是其絕對值的原碼全部取反,然後加1)。階碼可以為正數,也可以為負數,為 了處理負指數的情況,實際的指數值按要求需要加上一個偏差(Bias)值作為儲存在指數域中的值,單精度數的偏差值為127,雙精度數的偏差值為 1023。例如,單精度的實際指數值0在指數域中將儲存為127,而儲存在指數域中的64則表示實際的指數值-63,偏差的引入使得對於單精度數,實際可 以表達的指數值的範圍就變成-127到128之間(包含兩端)。
M為尾數,其中單精度數為23位長,雙精度數為52位長。IEEE標準要求浮 點數必須是規範的。這意味著尾數的小數點左側必須為1,因此在儲存尾數的時候,可以省略小數點前面這個1,從而騰出一個二進位制位來儲存更多的尾數。這樣實 際上用23位長的尾數域表達了24位的尾數。例如對於單精度數而言,二進位制的1001.101(對應於十進位制的9.625)可以表達為1.001101 × 23,所以實際儲存在尾數域中的值為00110100000000000000000,即去掉小數點左側的1,並用0在右側補齊。
根據標準 要求,無法精確儲存的值必須向最接近的可儲存的值進行舍入,即不足一半則舍,一半以上(包括一半)則進。不過對於二進位制浮點數而言,還多一條規矩,就是當 需要舍入的值剛好是一半時,不是簡單地進,而是在前後兩個等距接近的可儲存的值中,取其中最後一位有效數字為零者。
據以上分析,IEEE 754標準中定義浮點數的表示範圍為:
二進位制(Binary) |
十進位制(Decimal) |
|
單精度浮點數 |
± (2-2^-23) × 2127 |
~ ± 10^38.53 |
雙精度浮點數 |
± (2-2^-52) × 21023 |
~ ± 10^308.25 |
1、浮點數的表示約定
單精度浮點數和雙精度浮點數都是用IEEE 754標準定義的,其中有一些特殊約定,例如:
1、當P=0,M=0時,表示0。
2、當P=255,M=0時,表示無窮大,用符號位來確定是正無窮大還是負無窮大。
3、當P=255,M≠0時,表示NaN(Not a Number,不是一個數)。
2、非規範浮點數
當 兩個絕對值極小的浮點數相減後,其差值的指數可能超出允許範圍,最終只能近似為0。為了解決此類問題,IEEE標準中引入了非規範 (Denormalized)浮點數,規定當浮點數的指數為允許的最小指數值時,尾數不必是規範化(Normalized)的。有了非規範浮點數,去掉了 隱含的尾數位的制約,可以儲存絕對值更小的浮點數。而且,由於不再受到隱含尾數域的制約,上述關於極小差值的問題也不存在了,因為所有可以儲存的浮點數之 間的差值同樣可以儲存。
根據IEEE 754標準中的定義,規範和非規範浮點數的表示範圍可歸納為下表:
規範浮點數 |
非規範浮點數 |
十進位制近似範圍 |
|
單精度浮點數 |
± 2^-149 至 (1-2^-23)*2^-126 |
± 2^-126 至 (2-2^-23)*2^127 |
± ~10^-44.85 至 ~10^38.53 |
雙精度浮點數 |
± 2^-1074 至 (1-2^-52)*2^-1022 |
± 2^-1022 至 (2-2^-52)*2^1023 |
± ~10^-323.3 至 ~10^308.3 |
本文的結論基於IEEE 754標準,另外一個標準是IEEE 854,這個標準是關於十進位制浮點數的,但沒有規定具體格式,所以很少被採用。另外,從2000年開始,IEEE 754開始修訂,被稱為IEEE 754R,目的是融合IEEE 754和IEEE 854標準。該標準在浮點格式方面的修訂有:1、加入了16位和128位的二進位制浮點數格式;2、加入了十進位制浮點數格式,採用了IBM公司提出的格式。
四:將浮點格式轉換成十進位制數
[例3.1]:
0x00280000(real*4)
轉換成二進位制
00000000001010000000000000000000
符號位 指數部分(8位) 尾數部分
0 00000000 01010000000000000000000
符號位=0;因指數部分=0,則:尾數部分M為m:
0.01010000000000000000000=0.3125
該浮點數的十進位制為:
(-1)^0*2^(-126)*0.3125
=3.6734198463196484624023016788195e-39
[例3.2]:
0xC04E000000000000(real*8)
轉換成二進位制
1100000001001110000000000000000000000000000000000000000000000000
符號位 指數部分(11位) 尾數部分
1 10000000100 1110000000000000000000000000000000000000000000000000
符號位=1;指數=1028,因指數部分不為全'0'且不為全'1',則:尾數部分M為1+m:
1.1110000000000000000000000000000000000000000000000000=1.875
該浮點數的十進位制為:
(-1)^1*2^(1028-1023)*1.875
=-60
四:將十進位制數轉換成浮點格式(real*4)
[例4.1]:
26.0
十進位制26.0轉換成二進位制
11010.0
規格化二進位制數
1.10100*2^4
計算指數
4+127=131
符號位 指數部分 尾數部分
0 10000011 10100000000000000000000
以單精度(real*4)浮點格式儲存該數
0100 0001 1101 0000 0000 0000 0000 0000
0x41D0 0000
[例4.2]:
0.75
十進位制0.75轉換成二進位制
0.11
規格化二進位制數
1.1*2^-1
計算指數
-1+127=126
符號位 指數部分 尾數部分
0 01111110 10000000000000000000000
以單精度(real*4)浮點格式儲存該數
0011 1111 0100 0000 0000 0000 0000 0000
0x3F40 0000
[例4.3]:
-2.5
十進位制-2.5轉換成二進位制
-10.1
規格化二進位制數
-1.01*2^1
計算指數
1+127=128
符號位 指數部分 尾數部分
1 10000000 01000000000000000000000
以單精度(real*4)浮點格式儲存該數
1100 0000 0010 0000 0000 0000 0000 0000
0xC020 0000