为什么这些数字不相等?
下面的代码显然是错误的。 有什么问题?
i <- 0.1 i <- i + 0.05 i ## [1] 0.15 if(i==0.15) cat("i equals 0.15") else cat("i does not equal 0.15") ## i does not equal 0.15
一般(语言不可知)的原因
由于并不是所有的数字都可以完全用IEEE浮点运算 (几乎所有计算机用来表示十进制数字并与它们进行math运算的标准)表示,所以不会总是得到您所期望的。 这是特别真实的,因为一些简单的有限小数(例如0.1和0.05)的值在计算机中没有精确地表示,所以对它们的算术结果可能不会给出与直接表示“已知“答案。
这是计算机算术的一个众所周知的局限性,在几个地方进行了讨论:
- R常见问题解答有问题: R常问问题7.31
- 帕特里克·伯恩斯(Patrick Burns )的“ 地狱”(R Inferno)将第一个“圆圈”(Circle)用于这个问题(从第9页开始)
- David Goldberg,“每个计算机科学家应该知道什么是浮点运算”, ACM Computing Surveys 23,1 (1991-03),5-48 doi> 10.1145 / 103162.103163 ( 修订版也可用 )
- 浮点指南 – 每个程序员应该知道什么关于浮点运算
- 0.30000000000000004.com比较跨编程语言的浮点运算
- 包括几个堆栈溢出问题
- 为什么浮点数不准确?
- 为什么十进制数不能完全用二进制表示?
- 浮点math是否被破坏?
- 对于“浮点数不准确”的典型副本 (关于这个问题的典型答案的元讨论)
比较标量
R
的标准解决scheme不是使用==
,而是使用all.equal
函数。 或者说,因为all.equal
给出了有关这些差异的很多细节, isTRUE(all.equal(...))
。
if(isTRUE(all.equal(i,0.15))) cat("i equals 0.15") else cat("i does not equal 0.15")
产量
i equals 0.15
更多使用all.equal
而不是==
的示例(最后一个示例应该表明这将正确显示差异)。
0.1+0.05==0.15 #[1] FALSE isTRUE(all.equal(0.1+0.05, 0.15)) #[1] TRUE 1-0.1-0.1-0.1==0.7 #[1] FALSE isTRUE(all.equal(1-0.1-0.1-0.1, 0.7)) #[1] TRUE 0.3/0.1 == 3 #[1] FALSE isTRUE(all.equal(0.3/0.1, 3)) #[1] TRUE 0.1+0.1==0.15 #[1] FALSE isTRUE(all.equal(0.1+0.1, 0.15)) #[1] FALSE
一些更多的细节,直接复制到一个类似的问题的答案 :
您遇到的问题是,在大多数情况下,浮点不能精确地表示小数部分,这意味着您经常会发现精确匹配失败。
而当你说:R稍微说谎:
1.1-0.2 #[1] 0.9 0.9 #[1] 0.9
你可以找出它真的认为在十进制:
sprintf("%.54f",1.1-0.2) #[1] "0.900000000000000133226762955018784850835800170898437500" sprintf("%.54f",0.9) #[1] "0.900000000000000022204460492503130808472633361816406250"
你可以看到这些数字是不同的,但代表性是有点笨拙。 如果我们用二进制来看(hex,相当于),我们得到一个更清晰的图像:
sprintf("%a",0.9) #[1] "0x1.ccccccccccccdp-1" sprintf("%a",1.1-0.2) #[1] "0x1.ccccccccccccep-1" sprintf("%a",1.1-0.2-0.9) #[1] "0x1p-53"
你可以看到它们相差2^-53
,这很重要,因为这个数字是两个数值之间最小的可表示的差值,其值接近于1。
我们可以找出任何给定的计算机这个最小的可表示的数字是通过查看R的机器领域:
?.Machine #.... #double.eps the smallest positive floating-point number x #such that 1 + x != 1. It equals base^ulp.digits if either #base is 2 or rounding is 0; otherwise, it is #(base^ulp.digits) / 2. Normally 2.220446e-16. #.... .Machine$double.eps #[1] 2.220446e-16 sprintf("%a",.Machine$double.eps) #[1] "0x1p-52"
您可以使用这个事实来创build一个“接近平等”的函数,它检查差异是否接近浮点最小可表示的数字。 其实这已经存在: all.equal
。
?all.equal #.... #all.equal(x,y) is a utility to compare R objects x and y testing 'near equality'. #.... #all.equal(target, current, # tolerance = .Machine$double.eps ^ 0.5, # scale = NULL, check.attributes = TRUE, ...) #....
所以all.equal函数实际上是检查数字之间的差异是两个尾数之间的最小差异的平方根。
这个algorithm在一个非常小的称为denormals的数字附近有点搞笑,但是你不需要担心。
比较向量
上面的讨论假设了两个单值的比较。 在R中,没有标量,只有向量和隐式向量化是语言的一个力量。 为了比较vector元素的价值,先前的原则是成立的,但是实现略有不同。 ==
是vector化的(元素明智的比较),而all.equal
将整个vector作为单个实体进行比较。
使用前面的例子
a <- c(0.1+0.05, 1-0.1-0.1-0.1, 0.3/0.1, 0.1+0.1) b <- c(0.15, 0.7, 3, 0.15)
==
不会给出“预期”的结果, all.equal
不会执行元素明智的
a==b #[1] FALSE FALSE FALSE FALSE all.equal(a,b) #[1] "Mean relative difference: 0.01234568" isTRUE(all.equal(a,b)) #[1] FALSE
相反,必须使用循环两个向量的版本
mapply(function(x, y) {isTRUE(all.equal(x, y))}, a, b) #[1] TRUE TRUE TRUE FALSE
如果需要这个function版本,可以写
elementwise.all.equal <- Vectorize(function(x, y) {isTRUE(all.equal(x, y))})
这可以称为正义
elementwise.all.equal(a, b) #[1] TRUE TRUE TRUE FALSE
或者,不要将all.equal
包装在更多的函数调用中,而只需复制all.equal.numeric
的相关内部all.equal.numeric
并使用隐式向量化:
tolerance = .Machine$double.eps^0.5 # this is the default tolerance used in all.equal, # but you can pick a different tolerance to match your needs abs(a - b) < tolerance #[1] TRUE TRUE TRUE FALSE
添加到Brian的评论(这是原因),你可以通过使用all.equal
来代替:
# i <- 0.1 # i <- i + 0.05 # i #if(all.equal(i, .15)) cat("i equals 0.15\n") else cat("i does not equal 0.15\n") #i equals 0.15
Per Joshua在这里的警告是更新后的代码(谢谢Joshua):
i <- 0.1 i <- i + 0.05 i if(isTRUE(all.equal(i, .15))) { #code was getting sloppy &went to multiple lines cat("i equals 0.15\n") } else { cat("i does not equal 0.15\n") } #i equals 0.15
这是hackish,但很快:
if(round(i, 10)==0.15) cat("i equals 0.15") else cat("i does not equal 0.15")