【轉載】IEEE754 學習總結

卡卡西村長發表於2018-11-29

以下是參考《IEEE754 學習總結》並結合自己學習總結

一:前言
二:預備知識

三:浮點數的表示範圍
四:將浮點格式轉換成十進位制數


一:前言

  前不久在分析一個程式的過程中遇到了浮點運算,也就順便學習了一下浮點數的存放格式(IEEE754標準),此文僅作為總結,其中舉了幾個典型的例子,如果你想深入瞭解IEEE754標準,我想本文並不太適合您。


二:預備知識

-----------------------------------------------------------------------
值         儲存為        指數偏移量(階碼)    尾數部分
real*4   1位符號位(s)、8位指數(e),23位尾數(m,共32位)  127(7FH)
real*8   1位符號位(s)、11位指數(e),52位尾數(m,共64位) 1023(3FFH)
real*10  1位符號位(s)、15位指數(e),64位尾數(m,共80位) 16383(3FFFH)
-----------------------------------------------------------------------


計算公式:
V=(-1)^s*2^E*M

當e(各位)為全'0'時,E=1-(2^(e(位數)-1)-1),;M=m。
如:real*4是8位,E=1-(2^(8-1)-1)=1-127=-126
即,
在real*4時:
V=(-1)^s*2^(-126)*m
在real*8時:
V=(-1)^s*2^(-1022)*m

當e(各位)不為全'0'且不為全'1'時,E=e(值)-(2^(e(位數)-1)-1);M=1+m。
即,
在real*4時:
V=(-1)^s*2^(e(值)-127)*(1+m)
在real*8時:
V=(-1)^s*2^(e(值)-1023)*(1+m)

三:浮點數的表示範圍:

一個浮點數(Floating Point Number)由三個基本成分構成:符號(Sign)、階碼(Exponent)和尾數(Mantissa)。
  通常,可以用下面的格式來表示浮點數:
S P M
  其中S是符號位,P是階碼,M是尾數。
  根據IEEE(美國電氣和電子工程師學會)754標準中的定 義,單精度(Single Precision)浮點數是32位(即4位元組)的,雙精度(Double Precision)浮點數是64位(即8位元組)的。兩者的S、P、M所佔的位數以及表示方法由下表可知:
  S P M 表示公式 偏移量

單精度浮點數

1(第31位)

8(30到23位)

23(22到0位)

(-1)^S*2(P-127)*1.M

127

雙精度浮點數

1(第63位)

11(62到52位)

52(51到0位)

(-1)^S*2(P-1023)*1.M

1023
  其中S是符號位,只有0和1,分別表示正負。
  P是階碼,通常使用移碼錶示(移碼和補碼只有符號位相 反,其餘都一樣。對於正數而言,原碼、反碼和補碼都一樣;對於負數而言,補碼就是其絕對值的原碼全部取反,然後加1)。階碼可以為正數,也可以為負數,為 了處理負指數的情況,實際的指數值按要求需要加上一個偏差(Bias)值作為儲存在指數域中的值,單精度數的偏差值為127,雙精度數的偏差值為 1023。例如,單精度的實際指數值0在指數域中將儲存為127,而儲存在指數域中的64則表示實際的指數值-63,偏差的引入使得對於單精度數,實際可 以表達的指數值的範圍就變成-127到128之間(包含兩端)。
  M為尾數,其中單精度數為23位長,雙精度數為52位長。IEEE標準要求浮 點數必須是規範的。這意味著尾數的小數點左側必須為1,因此在儲存尾數的時候,可以省略小數點前面這個1,從而騰出一個二進位制位來儲存更多的尾數。這樣實 際上用23位長的尾數域表達了24位的尾數。例如對於單精度數而言,二進位制的1001.101(對應於十進位制的9.625)可以表達為1.001101 × 23,所以實際儲存在尾數域中的值為00110100000000000000000,即去掉小數點左側的1,並用0在右側補齊。
  根據標準 要求,無法精確儲存的值必須向最接近的可儲存的值進行舍入,即不足一半則舍,一半以上(包括一半)則進。不過對於二進位制浮點數而言,還多一條規矩,就是當 需要舍入的值剛好是一半時,不是簡單地進,而是在前後兩個等距接近的可儲存的值中,取其中最後一位有效數字為零者。
  據以上分析,IEEE 754標準中定義浮點數的表示範圍為:
 

二進位制(Binary)

十進位制(Decimal)

單精度浮點數

± (2-2^-23) × 2127

~ ± 10^38.53

雙精度浮點數

± (2-2^-52) × 21023

~ ± 10^308.25

  浮點數的表示有一定的範圍,超出範圍時會產生溢位(Flow),一般稱大於絕對值最大的資料為上溢(Overflow),小於絕對值最小的資料為下溢(Underflow)。
1、浮點數的表示約定
  單精度浮點數和雙精度浮點數都是用IEEE 754標準定義的,其中有一些特殊約定,例如:
  1、當P=0,M=0時,表示0。
  2、當P=255,M=0時,表示無窮大,用符號位來確定是正無窮大還是負無窮大。
  3、當P=255,M≠0時,表示NaN(Not a Number,不是一個數)。
2、非規範浮點數
  
當 兩個絕對值極小的浮點數相減後,其差值的指數可能超出允許範圍,最終只能近似為0。為了解決此類問題,IEEE標準中引入了非規範 (Denormalized)浮點數,規定當浮點數的指數為允許的最小指數值時,尾數不必是規範化(Normalized)的。有了非規範浮點數,去掉了 隱含的尾數位的制約,可以儲存絕對值更小的浮點數。而且,由於不再受到隱含尾數域的制約,上述關於極小差值的問題也不存在了,因為所有可以儲存的浮點數之 間的差值同樣可以儲存。
  根據IEEE 754標準中的定義,規範和非規範浮點數的表示範圍可歸納為下表:
 

規範浮點數

非規範浮點數

十進位制近似範圍

單精度浮點數

± 2^-149 至 (1-2^-23)*2^-126

± 2^-126 至 (2-2^-23)*2^127

± ~10^-44.85 至 ~10^38.53

雙精度浮點數

± 2^-1074 至 (1-2^-52)*2^-1022

± 2^-1022 至 (2-2^-52)*2^1023

± ~10^-323.3 至 ~10^308.3

3、與IEEE 754相關的標準
  本文的結論基於IEEE 754標準,另外一個標準是IEEE 854,這個標準是關於十進位制浮點數的,但沒有規定具體格式,所以很少被採用。另外,從2000年開始,IEEE 754開始修訂,被稱為IEEE 754R,目的是融合IEEE 754和IEEE 854標準。該標準在浮點格式方面的修訂有:1、加入了16位和128位的二進位制浮點數格式;2、加入了十進位制浮點數格式,採用了IBM公司提出的格式。

 


四:將浮點格式轉換成十進位制數

[例3.1]:
0x00280000(real*4)
轉換成二進位制
00000000001010000000000000000000
符號位 指數部分(8位) 尾數部分
0 00000000 01010000000000000000000
符號位=0;因指數部分=0,則:尾數部分M為m:
0.01010000000000000000000=0.3125
該浮點數的十進位制為:
(-1)^0*2^(-126)*0.3125
=3.6734198463196484624023016788195e-39


[例3.2]:
0xC04E000000000000(real*8)
轉換成二進位制
1100000001001110000000000000000000000000000000000000000000000000
符號位 指數部分(11位) 尾數部分
1 10000000100 1110000000000000000000000000000000000000000000000000
符號位=1;指數=1028,因指數部分不為全'0'且不為全'1',則:尾數部分M為1+m:
1.1110000000000000000000000000000000000000000000000000=1.875
該浮點數的十進位制為:
(-1)^1*2^(1028-1023)*1.875
=-60


四:將十進位制數轉換成浮點格式(real*4)

[例4.1]:
26.0
十進位制26.0轉換成二進位制
11010.0
規格化二進位制數
1.10100*2^4
計算指數
4+127=131
符號位 指數部分 尾數部分
0 10000011 10100000000000000000000
以單精度(real*4)浮點格式儲存該數
0100 0001 1101 0000 0000 0000 0000 0000
0x41D0 0000

[例4.2]:
0.75
十進位制0.75轉換成二進位制
0.11
規格化二進位制數
1.1*2^-1
計算指數
-1+127=126
符號位 指數部分 尾數部分
0 01111110 10000000000000000000000
以單精度(real*4)浮點格式儲存該數
0011 1111 0100 0000 0000 0000 0000 0000
0x3F40 0000

[例4.3]:
-2.5
十進位制-2.5轉換成二進位制
-10.1
規格化二進位制數
-1.01*2^1
計算指數
1+127=128
符號位 指數部分 尾數部分
1 10000000 01000000000000000000000
以單精度(real*4)浮點格式儲存該數
1100 0000 0010 0000 0000 0000 0000 0000
0xC020 0000

 

擴充閱讀:http://blog.csdn.net/fireseed/article/details/2180