如何实现C＃string的GetHashCode（）？

我只是好奇，因为我猜它会影响性能。它考虑完整的string吗？如果是的话，长串会慢。如果只考虑string的一部分，那么性能会很差（例如，如果只考虑string的开始，如果HashSet包含大部分相同的string，则性能会很差。

当你有这样的问题时，一定要获得参考源代码。还有更多的东西比你可以从反编译器看到。 select一个匹配你首选的.NET目标的方法，版本之间的方法已经改变了很多。我将在这里重现它的.NET 4.5版本，从Source.NET 4.5 \ 4.6.0.0 \ net \ clr \ src \ BCL \ System \ String.cs \ 604718 \ String.cs中检索

  public override int GetHashCode() { #if FEATURE_RANDOMIZED_STRING_HASHING if(HashHelpers.s_UseRandomizedStringHashing) { return InternalMarvin32HashString(this, this.Length, 0); } #endif // FEATURE_RANDOMIZED_STRING_HASHING unsafe { fixed (char *src = this) { Contract.Assert(src[this.Length] == '\0', "src[this.Length] == '\\0'"); Contract.Assert( ((int)src)%4 == 0, "Managed string should start at 4 bytes boundary"); #if WIN32 int hash1 = (5381<<16) + 5381; #else int hash1 = 5381; #endif int hash2 = hash1; #if WIN32 // 32 bit machines. int* pint = (int *)src; int len = this.Length; while (len > 2) { hash1 = ((hash1 << 5) + hash1 + (hash1 >> 27)) ^ pint[0]; hash2 = ((hash2 << 5) + hash2 + (hash2 >> 27)) ^ pint[1]; pint += 2; len -= 4; } if (len > 0) { hash1 = ((hash1 << 5) + hash1 + (hash1 >> 27)) ^ pint[0]; } #else int c; char *s = src; while ((c = s[0]) != 0) { hash1 = ((hash1 << 5) + hash1) ^ c; c = s[1]; if (c == 0) break; hash2 = ((hash2 << 5) + hash2) ^ c; s += 2; } #endif #if DEBUG // We want to ensure we can change our hash function daily. // This is perfectly fine as long as you don't persist the // value from GetHashCode to disk or count on String A // hashing before string B. Those are bugs in your code. hash1 ^= ThisAssembly.DailyBuildNumber; #endif return hash1 + (hash2 * 1566083941); } } }

这可能比你讨价还价，我会注释一下代码：

#if条件编译指令使这个代码适应不同的.NET目标。 FEATURE_XX标识符在其他地方定义，并在整个.NET源代码中将functionclosures。当目标是32位版本的框架时定义了WIN32，mscorlib.dll的64位版本是单独构build的，并存储在GAC的不同子目录中。
s_UseRandomizedStringHashingvariables启用了哈希algorithm的一个安全版本，该algorithm旨在让程序员避免麻烦，像使用GetHashCode（）为诸如密码或encryption之类的东西生成哈希。它由app.exe.config文件中的条目启用
固定语句不断索引string便宜，避免了常规索引器所做的边界检查
第一个Assert确保该string是零终止的，因为它是允许在循环中进行优化的必要条件
第二个Assert确保该stringalignment到一个应该是4的倍数的地址，以保持循环的高性能
循环被手动展开，每个循环的32位版本消耗4个字符。转换为int *是将2个字符（2 x 16位）存储在int（32位）中的技巧。循环后面的额外语句处理长度不是4的倍数的string。请注意，零终止符可能包含或不包含在散列中，如果长度是偶数，则不会包含它。它看着string中的所有字符，回答你的问题
循环的64位版本是以不同的方式完成的，用2进行手动展开。注意，它在embedded的零处提前终止，所以不会查看所有的字符。否则非常罕见。这很奇怪，我只能猜测这跟string可能非常大有关。但是想不出一个实际的例子
最后的debugging代码确保框架中的任何代码都不会依赖运行之间可重现的散列码。
散列algorithm非常标准。价值1566083941是一个魔法数字，在梅森扭转者中是一个常见的素数。

检查源代码（由ILSpy提供），我们可以看到它遍历了string的长度。

 // string [ReliabilityContract(Consistency.WillNotCorruptState, Cer.MayFail), SecuritySafeCritical] public unsafe override int GetHashCode() { IntPtr arg_0F_0; IntPtr expr_06 = arg_0F_0 = this; if (expr_06 != 0) { arg_0F_0 = (IntPtr)((int)expr_06 + RuntimeHelpers.OffsetToStringData); } char* ptr = arg_0F_0; int num = 352654597; int num2 = num; int* ptr2 = (int*)ptr; for (int i = this.Length; i > 0; i -= 4) { num = ((num << 5) + num + (num >> 27) ^ *ptr2); if (i <= 2) { break; } num2 = ((num2 << 5) + num2 + (num2 >> 27) ^ ptr2[(IntPtr)4 / 4]); ptr2 += (IntPtr)8 / 4; } return num + num2 * 1566083941; }

如何实现C＃string的GetHashCode（）？

如何在.NET中获取打印机信息？

为什么SQL浮点数不同于C＃float

将数据注入到WCF服务

如何获得.NET（C＃）中的UserControl的HTML输出？

IIS7自定义404不显示

有没有一个.NET相当于Apache Hadoop？

你是否必须在发布时编译.pdb文件？

与lambdas一起使用的弱事件处理程序模型

entity framework6与SQLite 3代码优先 – 不会创build表

在.netexception中如何获得具有参数值的堆栈跟踪