Floating point 对可表示值范围的直观解释

Floating point 对可表示值范围的直观解释,floating-point,precision,Floating Point,Precision,我是一个新手,最近开始阅读浮点数表示法的介绍,其中指出任意基b中最小指数值L和最大指数值U的可表示值范围如下: 最小值:b^(L-1) 最大值:b^U*(1-b^-t),其中t是尾数中的有效位数 如何理解和/或派生这些格式,为新手解释?浮点格式在某些细节和表示方式上有所不同。由于问题没有具体说明这些细节,我们必须推断出一些缺失的信息 最常见的是,有效位被标准化为区间[1,b]。然而,根据问题中的信息,正常区间似乎被指定为[1/b,1] 在这种情况下,普通浮点数由符号组成(− 或+,L中的指数

我是一个新手,最近开始阅读浮点数表示法的介绍,其中指出任意基b中最小指数值L和最大指数值U的可表示值范围如下:

  • 最小值:b^(L-1)
  • 最大值:b^U*(1-b^-t),其中t是尾数中的有效位数

如何理解和/或派生这些格式,为新手解释?

浮点格式在某些细节和表示方式上有所不同。由于问题没有具体说明这些细节,我们必须推断出一些缺失的信息

最常见的是,有效位被标准化为区间[1,b]。然而,根据问题中的信息,正常区间似乎被指定为[1/b,1]

在这种情况下,普通浮点数由符号组成(− 或+,L中的指数e≤ E≤ U、 [1/b,1]中的有效位f,由基点后的p个base-b数字组成(例如,“.”后的三个base-8数字为.1738)。这些部分表示的数字为±be•f。(此处问题中的t已更改为p,简称精度。)

使用这些参数,最小的可表示正数具有符号+、指数L和有效位1/b(由.1000…000b组成)。它表示的数字为+bL•1/b=bL−一,


可表示的最大有限数具有符号+、指数U和最大有效位,即.nnn…nnnb,其中n是数字b−1和p位。nnn…nnnb的值等于几何级数.n+.0n+.00n+.000n+.000…n的值,即1−B−p、 等价地,我们可以看到−p=.nnn…nnnb+.000…001b=1.000…000b=1。此符号、指数和有效位表示+bU•(1−B−p) .

Rutgersandmore
b^U*(1-b^-t)
的哪一部分是清楚的?哪一部分是不清楚的?我想这个表达式可能来自给定值x的表达式的最大值,它是(除了前面的符号之外)指数j=1..t的表达式a_j*b^e-j的总和(其中a_j是尾数的有效数字)——但我不知道怎么做。我觉得我可能错过了这里一个非常简单的算术点,我不知道……或者这个最大值是如何推导出来的?让
t=5
讨论,
b==10
1-b^-t
-->1.0-0.00001-->0.9999。最大指数(设U=7)通常保留为表示无穷大而非数字。有限数的最大值为
U-1
。因此最大值为0.99999*pow(10,6)或9.9999*pow(10,7).现在更有意义了--我事先没有这样想,总是试图直接从求和表达式中推导出来。非常感谢您的帮助!非常感谢您的回答,特别是指出几何级数。n+.0n+.00n+.000n+.000=1−b^−p、 我没有做那个链接!非常感谢!