我正在build立一个系统,需要能够find是否更新字节blob 。 而不是存储整个blob(他们可以高达5MBs),我想我应该计算它的校验和,存储这个并稍后计算相同的校验和,看看博客是否已经更新。 目标是最小化以下(按此顺序): 校验和的大小 计算时间 碰撞的可能性(即使内容已被修改,也会发生2次相同的校验和)。 我们的系统碰撞不超过1 / 1,000,000是可以接受的。 关心的不是安全问题,而只是更新/错误检测,所以罕见的碰撞是可以的。 (这就是为什么我把它放在最小化的东西)。 另外,我们不能自己修改文本的斑点。 当然, md5 , crc或sha1会让人想起,如果我想要一个快速的解决scheme,我会去做的。 然而,不仅仅是一个快速的解决scheme,我正在寻找什么可以比较不同的方法,以及利弊 。