浮點數是在浮點格式中可表示的有限或無限的數,即不是 NaN 的浮點表示。
在 IEEE 754-2008 標準中,所有浮點數(包括零和無窮大)都是有符號的。
IEEE 754-2008 允許五種“基本格式”用於浮點數,包括三種二進位制格式(32 位、64 位和 128 位)和兩種十進位制格式(64 位和 128 位);它還指定了幾種“推薦格式”,用於擴充套件這些基本格式以實現更高的精度。所有基本數值格式的特徵在於指定一個基數 ,一個精度
(即尾數中的位數),以及一個指數範圍
,該範圍由給定格式的精度決定。一般來說,非零浮點數的形式為
其中 表示數字的符號,
是其指數,
是其尾數。請注意,(1)中的描述框架使得尾數
以科學計數法形式檢視(小數點或基點緊跟在第一位數字之後),儘管(1)可以重新表示以將
視為整數(由此,
和指數
在(1)中都將相應地更改格式)。
| 32 位二進位制 | 64 位二進位制 | 128 位二進位制 | 64 位十進位制 | 128 位十進位制 | |
| 24 | 53 | 113 | 16 | 34 | |
| emax | +127 | +1023 | +16383 | +384 | +6144 |
上表總結了五種基本數字格式的特徵。請注意,根據定義,。
| 32 位二進位制 | 64 位二進位制 | 128 位二進位制 | 64 位十進位制 | 128 位十進位制 | |
| emax |
如前所述,IEEE 754 還提供了一個推薦格式框架,透過該框架可以擴充套件五種基本格式。上表總結了這些擴充套件格式浮點數的引數特徵。請注意,所有這些格式(基本格式和推薦格式)都允許 和
,
,以及兩個 NaN。
在文獻中,規格化浮點數和次規格化浮點數之間存在區別。 特別是,最小的正規格化浮點數是 ,最大的是
;另一方面,量級小於
的非零浮點數可能存在,稱為次規格化數。次規格化數的特徵在於它們始終少於
個有效數字;此外,每個有限浮點數都是最小次規格化量級的整數倍
(IEEE 計算機協會 2008)。