关于.NET:重写System.Object.GetHashCode的最佳算法是什么？

What is the best algorithm for an overridden System.Object.GetHashCode?

在.NET中，System.Object.GetHashCode方法在.NET基类库的许多地方都被使用。尤其是在快速查找集合中的项或确定相等时。对于如何实现自定义类的GetHashCode重写，以便不降低性能，是否有标准的算法/最佳实践？

我通常采用类似于Josh Bloch出色的Java的实现方式。它的速度很快，并且创建了一个相当好的哈希，不太可能导致冲突。选择两个不同的质数，例如17和23，然后执行以下操作：

1
2
3
4
5
6
7
8
9
10
11
12

public override int GetHashCode()
{
unchecked // Overflow is fine, just wrap
{
int hash = 17;
// Suitable nullity checks etc, of course :)
hash = hash * 23 + field1.GetHashCode();
hash = hash * 23 + field2.GetHashCode();
hash = hash * 23 + field3.GetHashCode();
return hash;
}
}

正如注释中所指出的，您可能会发现最好选择一个大素数来乘。显然486187739是好的…虽然我看到的大多数小数字的例子都倾向于使用素数，但至少有类似的算法经常使用非素数。例如，在后面不完全是fnv的例子中，我使用的数字显然工作得很好，但初始值不是质数。(乘法常数是素数。我不知道这有多重要。)

这比XOR哈希代码的常见做法要好，主要有两个原因。假设我们有一个带有两个int字段的类型：

1 2	XorHash(x, x) == XorHash(y, y) == 0 for all x, y XorHash(x, y) == XorHash(y, x) for all x, y

顺便说一下，早期的算法是C编译器目前用于匿名类型的算法。

这个页面提供了很多选项。我认为在大多数情况下，以上这些都是"足够好的"，而且非常容易记住和纠正。Fnv替代方法同样简单，但使用不同的常量和XOR而不是ADD作为组合操作。它看起来与下面的代码类似，但是普通的fnv算法对单个字节进行操作，因此这需要修改以对每个字节执行一次迭代，而不是对每个32位散列值执行一次迭代。fnv还设计用于可变长度的数据，而我们在这里使用它的方式总是针对相同数量的字段值。对这个答案的评论表明这里的代码实际上不如上面的添加方法工作得好(在测试的示例案例中)。

1
2
3
4
5
6
7
8
9
10
11
12
13

// Note: Not quite FNV!
public override int GetHashCode()
{
unchecked // Overflow is fine, just wrap
{
int hash = (int) 2166136261;
// Suitable nullity checks etc, of course :)
hash = (hash * 16777619) ^ field1.GetHashCode();
hash = (hash * 16777619) ^ field2.GetHashCode();
hash = (hash * 16777619) ^ field3.GetHashCode();
return hash;
}
}

请注意，需要注意的一点是，理想情况下，在将相等敏感(因此对哈希代码敏感)状态添加到依赖哈希代码的集合后，应该防止其发生更改。

根据文件：

You can override GetHashCode for immutable reference types. In general, for mutable reference types, you should override GetHashCode only if:

You can compute the hash code from fields that are not mutable; or

You can ensure that the hash code of a mutable object does not change while the object is contained in a collection that relies on its hash code.

相关讨论

您提到的本书中描述的算法实际上更详细一些，它特别描述了如何处理字段的不同数据类型。例如：对于long use(int)类型的字段(field^f>>32)，而不是简单地调用gethashcode。long.gethashcodes是这样实现的吗？
是的，int64.gethashcode就是这样做的。当然，在Java中需要拳击。这提醒了我-是时候给这本书添加链接了…
23不是一个好的选择，因为(从.NET 3.5 SP1开始)Dictionary假定某些素数具有良好的分布模。其中有23个。因此，如果您有容量为23的字典，那么只有对GetHashCode的最后一个贡献会影响复合哈希代码。所以我宁愿用29而不是23。
@ANI:您的实现在堆上分配了几个新对象，因此性能可能低于手动实现。这是否可以接受取决于您的类型和用法。检查其他一些答案，寻找使用泛型的帮助者，以避免这个问题。
@codeinchaos：只有最后一个贡献会影响bucket，所以它可能，最坏的情况下，需要查看字典中的所有23个条目。它仍然会检查每个条目的实际哈希代码，这将是便宜的。如果你有一本那么小的字典，那就不太重要了。
@乔恩：我不得不问，尽管我已经就这个话题提出了自己的问题，但既然vb没有checked和unchecked关键字，那么这是什么好的vb版本呢？我尝试将tmphash设为Int64，并使用较低的8位(根据我问题的公认答案)，但在足够大的一组字段上，它以某种方式使计算在循环的其余部分中换行到0。
@库巴：恐怕我不知道用VB怎么做。在VB中是否总是检查算术？您是否可以有一个单独的类库，您可以将算术委托给它，要么用C编写，要么在项目范围内关闭选中的算术的情况下编写？
@乔恩：VB显然检查了很多东西。它对要求无符号数字在左移或右移之前被转换成有符号数字有一种狂热。它把我从墙上推到天花板上。我正试图实现Jenkins散列来解决缺少检查/未检查的问题(旋转散列也可以解决这个问题，但我担心散列与输入的冲突)。我想避免使用单独的C库，因为它本质上承认失败。如果我说到这一点，我应该用C重新编写整个项目。
不必要的b/c clr是否会在默认情况下愉快地溢出？
@波默罗伊：这取决于项目设置是什么。基本上，您为程序集提供了一个默认的选中或未选中上下文。
@Pomeroy:vb不像c那样颗粒化。因为它缺少上述两个关键字，所以您唯一的选择是删除整个项目的nteger溢出。我想，如果您的项目是完整的，并且通常经过了良好的测试，那么删除溢出检查是一件安全的事情。但是，在构建和调试时，这些检查很好，因为它们将突出显示要修复的错误。我打开了与Microsoft的Connect Ticket，建议在下一个.NET版本中包含选中/未选中的关键字支持。不过，他们是否会这么做还不确定。
我要补充的是，我必须使用上面jon答案中链接的旋转哈希算法。它不会溢出，即使是在Int32上，也不会(到目前为止)在计算中的大量字段上换行为0，而且非常简单和快速。詹金斯散列没有计算出来……甚至根据输入随机溢出。另外，在有符号数学中发生的位移的强制也阻碍了很多事情的发展。我可能会打开另一个bug，除非这是有意的行为。
您的方法声明中不需要override吗？也可以放入空检查，因为这是一个很好使用的示例。
@罗里：我已经添加了覆盖，谢谢-我不会加入空检查，因为我觉得这会模糊重要的点。在我看来，这个评论足够了。
为什么从素数开始而不是从零开始？int hash = 17;是否有任何理论上支持的好处？
@FredOverflow:我不知道背后所有原因的确切细节，但是从0开始意味着如果单个字段散列为零，散列将保持为零…这可能并不少见(例如，值为零的整数可能会散列为零)。只是一个猜测，但是我怀疑有一个常数可以和每个字段一起传播是有用的。这实际上只是从有效的Java复制：
@Jonskeet对于一个复杂的对象图来说，这个算法有多安全，比如500个对象，每个对象都有10个属性。相关问题：stackoverflow.com/questions/5308057/&hellip；
@比博克：任何一次改变都会发生碰撞的可能性很低…但在你所说的问题中，我可能会用密码散列来代替。
接下来的问题是，如何在对象模型上创建加密散列？
@Bitbonk：我强烈考虑对表单的二进制序列化结果使用"普通"加密散列。
该算法基本上是DJB2字符串哈希算法，建议使用常数5381和33(cse.yorku.ca/~oz/hash.html)。老实说，我不确定常数有多大区别，但乘数很重要。
@我意识到我在这里把死人养大，但对我来说实现哈希是一件新的事情。在您的实现中，散列中包含哪些字段？只有不变的，还是有好的领域？
@那完全取决于你想要平等的含义。通常情况下，包含可变数据是一个坏主意。
你将如何处理无效？如果只是忽略这个字段，那么对于a=null，b="ss"和a="ss"，b=null，我们会有结肠。用不同的素数乘以每个字段不是更好吗？
@vajda：我通常使用0作为null的有效哈希代码，这与忽略字段不同。
@JNM2：老实说，我不理解你的论点。特别是，我刚刚尝试了有效地散列10个字段——更改第一个字段的值仍然会更改散列，这与您所说的"第一个散列代码的每一位都将丢失"相矛盾。
你可以很简单地证明这是一个糟糕的分布。取这个fnv变量并将其应用于字符串(使用不安全的指针操作一次获取整数，以给它一个公平的机会)。使用它将字符串添加到基于两个哈希表的幂。对于我现在正在研究的那个，如果我生成"1"，"2"，……999999英寸，再加上它们，大约需要34秒。现在使用相同的哈希方法，并使用均匀分布的哈希重新哈希结果。使用一个好的散列，这只会使事情变得更糟(花费更多的时间，我们可以引入新的冲突，但永远不会删除它们)。用…
…我正在处理的哈希表相同，生成"1"…"999999"的代码相同，添加它们需要1秒钟。基于素数的散列的效果不那么明显，因此，在这种情况下，花费额外的重新散列时间(可能会减少可能的结果，虽然这是不可能的)并没有获得任何好处，但两个表的幂次性能差表明总体上分布较差。
@乔安娜：谢谢。不知道你所说的"一次得到整数"是什么意思，但我会仔细看看。我仍然喜欢将此作为哈希的第一个近似值，但是如果您有另一个哈希，它简单易记，并且正确无误，但是分布更好，我很乐意改变我的做法：)
我的意思是我只是想做fixed(char* ptr = str){int* iPtr = (int*)ptr;...also to each charforeach(char c in str)压铸int，and the same applies。我就apparent to the相关weakness reason to when我使用二维表和电力学院让我可怜的结果(用used to the same as above多，我自己)。the solution is to河畔的最后命中有易记得忘记about to build a，和硬-记得method盎司，然后让它使用方便的把它的尾巴在nuget.org /茶/ spookilysharp packages 11号lunchtime答案全在这里。
"现在jonskeet答道。
jonhanna @：thanks for that。更多细节将要看当我帮of Time)：
is important to我想我们小心点了that should be with the changing哈希代码在运行时。我们有错误在我的项目，因为我要实现在developer the previous GetHashCode算法基于这个答案。但在他的执行辐射有辐射在list of the hash对象，used to each item in the collection of the hash码生成的对象。therefore，when the collection changed，the hash码也有改变。常见问题，结合我在WPF。如果你有example for the对象在词典中，你也会得到错误。
"是的，dzyann：mutating which the key的方式affects平等和thus the hash码它总是坏的想法。在已知的文件11。
你是正确的"jonskeet，铅和它可以很难跟踪的错误。这类房屋在WPF绑定的端口号.与学院。恩，我把我的年龄coworkers until one of the原因院和solved found it.正因为它非常challenging外面我们的队列。
你会改变17和23蓝晶石here to the常数。(thanks for the链接。)给无知的高性能多词典的查找，在我的家~ 60%，更好。
这是jnm2 @：not to start with the same算法比使用异或-这是段相当。这些常数与棒11 for this答案，但也许你应该回答你自己的文件？
其实，我想我xoring蓝晶石Rather就不会比简单diminish as the增去到哈希算法。你想做什么？
异或操作模式缝制GetHashCode(12%)在我的房子快。
"好jnm2：恩，就不会diminish简单-但是我做什么是not for the several年过去。我add as an虽然彼此替代。
有铸造int hash = 2166136261;is missing？编译器2166136261uint说that is a…结果int hash = (int)2166136261;changed it to
骑士：固定_杀手"，谢谢。
我valueutils for this to实施"订单的方法，但在我的测试considerable variant of this FNV带给collisions(24 %)datasets一定对称。也许这是因为this and is not the FNV hash真爱？传统hashes FNV octet(字节)为32位字，not。这给了我机会少的比特组合交替在这……
你的意思是："eamonnerbonne模式"这个方法呢？"两个不同的答案现在versions contains the…
FNV variant of this的意思是not FNV—那么漂亮，我认为那让问题更糟。我也incidentally，recipe that to the h=prime; repeat h=h*prime + ?；卵巢似乎那么好；it does if你换空气日期2010年1月17 especially素数，中间宽为64位。
埃蒙：@不知道足够的about the Theory to评论：(继续，我害怕
是的，我们在EN is not at the --给我的。不管一个人多这答案suggests that this is FNV执行哈希，已知的好井。但这是真的因为this is not not true，彼此。also is a字符串hash算法，指鼻试验，which needs to满足要求，在恩多trickier needs for potentially工作长度变长的字符串。但再次，the algorithm is not currently in the答案FNV恩多mixes the less位阱。
eamonnerbonne @：好吧。11所示编辑修饰to that是不工作的，那它在least some cases为好。
@埃蒙纳波恩：你知道的最好的系数是什么？
@Jnm2在我的实验中，偏移量无关紧要，而且趋势是较大的素数表现得更好，但需要注意的是，这是很难测试的，因为它很慢(非常慢)，要彻底，这取决于数据集"混乱"的方式。如果您的字段具有完全随机分布的哈希代码——这些都不重要，但是在现实世界中，这些哈希代码不是随机的，并且字段是相关的。大素数也会更好，这是一个很好的理由——它们混合比特更好，特别是当你的数据主要由小数字组成时。
@jnm2，所以我会选择一个较大的prime(比如2^16的顺序)，并调优.net的字典实现，字典不使用它<，>：referencesource.microsoft.com/mscorlib/system/collections/&hellip；
@jnm2我遇到了这两个进一步探讨这个问题的问题：stackoverflow.com/questions/1835976/&hellip；和stackoverflow.com/questions/1145217/&hellip；，这两个问题都得出结论：使用任何旧的大素数。第一个问题中接受的答案提到了两个以原则性的方式选择的——但这不太可能是一个真正与现实世界相关的原则，因此它仍然建议基本的想法：选择一个大的素数，而不是23或31。
顺便说一句：注意偏移量(据我所知)完全没有意义。分布律也适用于modulo，这意味着它只是所有对象共享的一个相同的偏移量——这对我所知道的任何哈希表都没有影响。
@埃蒙纳波恩：如果所有的物体都是同一类型的，我想是这样的。如果你有一个字典，其中一些键是其他键的子类，那会有不同…尽管只有当额外的字段值为0时。再说一次，这主要是我的习惯：(
@是的，如果你有不同类型的物体，使用不同的偏移量，你会有一些优势。不过，我想没有理由成为首相…在任何情况下，添加是如此便宜，也没有太多的理由来避免它。
我把这个算法用于伪随机生成器，它的行为有点奇怪：stackoverflow.com/questions/26847262/&hellip；
如果您从stackoverflow.com/a/2816747/21499获得了数字486187739，我实际上打算推荐92821。
由于类"object"的每个实例都有一个唯一的哈希代码，所以我想到，如果我们使用base.getHashCode()作为种子或其他东西来生成对象的哈希代码，这将是很好的。
@不，这是个坏主意，因为您希望不同但相等的对象具有相同的哈希代码。(我认为object.gethashcode也不能保证是唯一的。它很可能"不太可能发生碰撞"，但这不是同一回事。)
如果一个fieldL是一个List的话，它只需要做hash = ... ^ fieldL.GetHashCode()就行了，还是我要做foreach(){hash = ... ^ item.GetHashCode()}之类的东西？？？？
@狱卒：也不行。List不覆盖Equals或GetHashCode。#
我用这段代码做了3次双打，结果发生了大量的碰撞。我需要4194304个元组的哈希代码。有更好的方法吗？使用一些更大的素数有点帮助，但我仍然会遇到碰撞。
@用户984444：好吧，您应该预料到许多条目会发生一些冲突。你要买多少？
@琼斯基特很难说。我用它来缓存一些Perlin噪声的输出，冲突的指示器是我的图像中的一些"中间"输出；它具有…当你赢得纸牌。这可以通过更大的素数得到缓解(以及父系的变化)。我知道这很没用。我已经将我的结构(双精度元组作为键)改为一个类，这样NET就可以为我处理哈希代码，并且它不再有冲突。
@用户984444：嗯，这样，相等的键就不相等了，除非你在你的类中重写了GetHashCode，在这种情况下，你也遇到了同样的问题。也许你有必要提出一个新的问题，包括所有的细节…
@jonskeet：不是这样的；gethashcode的默认实现工作得很好(如果不是，在我的最终结果中会非常明显)。它也适用于一个结构，但速度却慢得可怜。我想使用结构，但对于我的用例来说，使用类似乎很好。
@用户984444：除非您自己重写GetHashCode和Equals或者继承自另一个这样做的类，否则您将获得引用相等。这不是结构将给你的。这真的，真的听起来像我们需要一个新的帖子这里的细节。
@我认为我的特定问题已经解决了，因为我得到了期望的结果，但是如果我有机会，我会发布一个详细的问题，这样你就可以看到发生了什么。
由于StyleCop默认设置非常挑剔，因此它会为该代码(SA1407)生成一个警告，因为您没有使用括号来确定算术运算符的优先级，即使读取代码的任何开发人员和我们都知道Bodmas规则的编译器都不需要使用括号。
@我不认为Bodmas包含xor:)我认为最后一段代码会用括号更清楚-现在就添加它们。我同意乘法和加法版本不需要它们。
我不知道"未检查"—谢谢！
对于未来的读者：考虑使用HashCode.Combine()
@Jonskeet知道如何在T-SQL中解决这个问题吗？我需要guid系列的c哈希来匹配uniqueidentifier系列的t-sql哈希。但是，在T-SQL中，不可能包装整数算术的结果。
@我对T-SQL中的哈希一无所知。如果它已经为guid值提供了定义良好的散列，那么我可能会尝试在C中模拟散列，而不是反过来。
@为什么不只用md5散列guid的有序连接？
@Jamesko:我会在.NET核心2.1实际发布时添加一个到EDOCX1[4]的链接，并且我可以链接到文档。我认为在那之前它对很多人都没用。
琼斯基特当然可以。
我不确定如何处理这里的空值。假设我们都是这个问题的专家，所有的答案似乎都没有真正涉及到这个问题。@Jonskeet在这些评论中提到，"我通常使用0作为空的有效哈希代码——这与忽略字段不同。"但是，我有一些疑问，这实际上是如何实现的。听起来您好像在说一个空属性应该使当前哈希值为零，但这看起来很奇怪。对于某些人来说，这可能是显而易见的，但是我希望有一个示例演示如何处理空值，或者更好的解释。
在阅读了其他一些关于这个话题的问答之后，我意识到我不太明白@jonsket在说什么。我误解了他说的，当属性为空时，我应该将0替换为散列常量。在这里看到一个例子后，我意识到他只是在说我应该用0代替属性的散列代码，这看起来很明显……考虑到这正是他所说的。
如果我的对象散列只依赖于一个int32属性，它真的需要使用像17或23这样的素数吗？我能不能退一点？
@STT106：对于单个属性，我只返回该属性的哈希代码，是的。
仅供参考，Visual Studio 2017可以在不使用Resharper的情况下生成GetHashCode()。docs.microsoft.com/en US/VisualStudio/ide/reference/&hellip；

匿名类型

Microsoft已经提供了一个好的通用哈希代码生成器：只需将属性/字段值复制到匿名类型并对其进行哈希：

1	new { PropA, PropB, PropC, PropD }.GetHashCode();

这对任何数量的属性都有效。它不使用拳击。它只使用已经在匿名类型框架中实现的算法。

valuetuple-更新c_7

正如@cactuaroid在注释中提到的，可以使用值元组。这节省了一些击键，更重要的是只在堆栈上执行(没有垃圾)：

1	(PropA, PropB, PropC, PropD).GetHashCode();

(注意：使用匿名类型的原始技术似乎在堆上创建了一个对象，即垃圾，因为匿名类型是作为类实现的，尽管编译器可能会对此进行优化。对这些选项进行基准测试是很有意思的，但是tuple选项应该是更好的。)

相关讨论

是的，匿名GetHashCode实现非常有效(顺便说一句，它与jon skeet的答案相同)，但是这个解决方案的唯一问题是，在任何GetHashCode调用中生成一个新实例。它可能有点开销，特别是在密集访问大型哈希集合的情况下…
这在vb w/.net 4.0中有效，但是仔细看IL，它使用box调用，因为类型使用泛型。不拆箱，但从我在这里读到的，仅仅是拳击的存在表明这可能有点低效。不过，似乎是vb的唯一选择，因为没有等同于checked/‘unchecked’。
@很好，我没有考虑创建新对象的开销。乔恩斯基特的回答是最有效的，不会用拳击。(@kumba解决了vb中未选中的问题，只需使用int64(long)并在计算后将其截断。)
也可以这么说。
在vb.net中：New With {PropA, PropB, PropC, PropD}.GetHashCode()。
vb.net在创建匿名类型时必须使用key:New With {Key PropA}.GetHashCode()，否则gethashcode将不会为具有相同"标识"属性的不同对象返回相同的hashcode。
别忘了列举你的IEnumerable，否则会发生不好的事情。new { PropA, PropB, C = PropC.ToList() }.GetHashCode()
@在这种情况下，我会考虑将IEnumerable保存为列表值，而不是每次计算哈希代码时都枚举它。在许多情况下，每次在gethashcode内调用tolist都会损害性能。
不要忘记，在这种情况下不需要私有属性/字段；)。
@基思：哈希代码不必受对象的所有属性的影响。散列代码只需要提供足够好的对象分布。而且计算速度应该很快。去掉可枚举的。如果你有一个列表，不要包括整个列表。使用Count和第一个元素(如果没有元素，则使用零)。除非您的类除了列表之外没有太多的变化；在这种情况下，如Rick所建议的，缓存列表的散列是最好的。回想一下，根据定义，对象的散列值必须始终相同。如果集合更改，则不要将其包含在哈希计算中。
对于那些喜欢这样的人，现在可以在C 7上使用(PropA, PropB, PropC, PropD).GetHashCode()，不需要GC压力@digemall关注。快速简单的哈希代码组合
@好极了！因此，使用元组(结构)而不是匿名类型(类)。对于tuple gethashcode()，它在幕后是否仍然使用相同的计算方法？
@里克洛夫，我对数学不太清楚。tuple.gethashcode()和valuetuple.gethashcode()类似。valuetuple.getHashCode()调用HashHelper。tuple.gethashcode()调用tuple.combineHashCodes。对于匿名类型，如何在匿名类型上实现equals和gethashcode？
@仙人掌：这的确是一个伟大的解决方案！
很抱歉@timo已经在下面发布了valuetuple.gethashcode()。

这是我的哈希代码助手。它的优点是它使用泛型类型参数，因此不会导致装箱：

public static class HashHelper
{
public static int GetHashCode<T1, T2>(T1 arg1, T2 arg2)
{
unchecked
{
return 31 * arg1.GetHashCode() + arg2.GetHashCode();
}
}

public static int GetHashCode<T1, T2, T3>(T1 arg1, T2 arg2, T3 arg3)
{
unchecked
{
int hash = arg1.GetHashCode();
hash = 31 * hash + arg2.GetHashCode();
return 31 * hash + arg3.GetHashCode();
}
}

public static int GetHashCode<T1, T2, T3, T4>(T1 arg1, T2 arg2, T3 arg3,
T4 arg4)
{
unchecked
{
int hash = arg1.GetHashCode();
hash = 31 * hash + arg2.GetHashCode();
hash = 31 * hash + arg3.GetHashCode();
return 31 * hash + arg4.GetHashCode();
}
}

public static int GetHashCode<T>(T[] list)
{
unchecked
{
int hash = 0;
foreach (var item in list)
{
hash = 31 * hash + item.GetHashCode();
}
return hash;
}
}

public static int GetHashCode<T>(IEnumerable<T> list)
{
unchecked
{
int hash = 0;
foreach (var item in list)
{
hash = 31 * hash + item.GetHashCode();
}
return hash;
}
}

/// <summary>
/// Gets a hashcode for a collection for that the order of items
/// does not matter.
/// So {1, 2, 3} and {3, 2, 1} will get same hash code.
/// </summary>
public static int GetHashCodeForOrderNoMatterCollection<T>(
IEnumerable<T> list)
{
unchecked
{
int hash = 0;
int count = 0;
foreach (var item in list)
{
hash += item.GetHashCode();
count++;
}
return 31 * hash + count.GetHashCode();
}
}

/// <summary>
/// Alternative way to get a hashcode is to use a fluent
/// interface like this:<br />
/// return 0.CombineHashCode(field1).CombineHashCode(field2).
/// CombineHashCode(field3);
/// </summary>
public static int CombineHashCode<T>(this int hashCode, T arg)
{
unchecked
{
return 31 * hashCode + arg.GetHashCode();
}
}

它还有一个扩展方法来提供一个流畅的接口，因此您可以这样使用它：

1
2
3
4

public override int GetHashCode()
{
return HashHelper.GetHashCode(Manufacturer, PartN, Quantity);
}

或者像这样：

1
2
3
4
5
6

public override int GetHashCode()
{
return 0.CombineHashCode(Manufacturer)
.CombineHashCode(PartN)
.CombineHashCode(Quantity);
}

相关讨论

我在助手库中有一个哈希类，我将它用于此目的。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

/// <summary>
/// This is a simple hashing function from Robert Sedgwicks Hashing in C book.
/// Also, some simple optimizations to the algorithm in order to speed up
/// its hashing process have been added. from: www.partow.net
/// </summary>
/// <param name="input">array of objects, parameters combination that you need
/// to get a unique hash code for them</param>
/// <returns>Hash code</returns>
public static int RSHash(params object[] input)
{
const int b = 378551;
int a = 63689;
int hash = 0;

// If it overflows then just wrap around
unchecked
{
for (int i = 0; i < input.Length; i++)
{
if (input[i] != null)
{
hash = hash * a + input[i].GetHashCode();
a = a * b;
}
}
}

return hash;
}

然后，您可以简单地将其用作：

1
2
3
4

public override int GetHashCode()
{
return Hashing.RSHash(_field1, _field2, _field3);
}

我没有评估它的性能，所以欢迎任何反馈。

相关讨论

这是我的助手类，使用了jon skeet的实现。

1
2
3
4
5
6
7
8
9
10

public static class HashCode
{
public const int Start = 17;

public static int Hash<T>(this int hash, T obj)
{
var h = EqualityComparer<T>.Default.GetHashCode(obj);
return unchecked((hash * 31) + h);
}
}

用途：

1
2
3
4
5
6
7

public override int GetHashCode()
{
return HashCode.Start
.Hash(_field1)
.Hash(_field2)
.Hash(_field3);
}

如果要避免为System.Int32编写扩展方法：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

public struct HashCode
{
private readonly int _value;

public HashCode(int value) => _value = value;

public static HashCode Start { get; } = new HashCode(17);

public static implicit operator int(HashCode hash) => hash._value;

public HashCode Hash<T>(T obj)
{
var h = EqualityComparer<T>.Default.GetHashCode(obj);
return unchecked(new HashCode((_value * 31) + h));
}

public override int GetHashCode() => _value;
}

它仍然是通用的，它仍然避免任何堆分配，并且使用的方式完全相同：

1
2
3
4
5
6
7
8
9

public override int GetHashCode()
{
// This time `HashCode.Start` is not an `Int32`, it's a `HashCode` instance.
// And the result is implicitly converted to `Int32`.
return HashCode.Start
.Hash(_field1)
.Hash(_field2)
.Hash(_field3);
}

马丁评论后更新：

obj != null导致了装箱，所以我切换到默认比较器。

请参阅有关默认比较器性能的此答案。
有关空值的哈希代码的讨论，请参见此问题。

编辑(2018年5月)：

EqualityComparer.Defaultgetter现在是一个jit内在特性——pull请求由stephen toub在这篇博客文章中提到。

相关讨论

在大多数情况下，equals()比较多个字段时，如果gethash()在一个字段或多个字段上散列，实际上并不重要。您只需确保计算散列值是非常便宜的(请不要分配)和快速的(没有繁重的计算，当然也没有数据库连接)，并提供良好的分布。

重要的提升应该是equals()方法的一部分；哈希应该是一个非常便宜的操作，以便能够对尽可能少的项调用equals()。

最后一点提示：不要依赖getHashCode()在多次应用程序运行中保持稳定。许多.NET类型不保证它们的哈希代码在重新启动后保持不变，因此您应该只对内存中的数据结构使用getHashCode()的值。

相关讨论

直到最近，我的答案都非常接近乔恩·斯基特的答案。然而，我最近启动了一个项目，它使用了两个哈希表的幂，即内部表的大小为8、16、32等的哈希表。有一个很好的理由支持素数大小，但是两个大小的幂也有一些优势。好的。

而且很糟糕。因此，经过一些实验和研究，我开始用以下方法重新散列散列：好的。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

public static int ReHash(int source)
{
unchecked
{
ulong c = 0xDEADBEEFDEADBEEF + (ulong)source;
ulong d = 0xE2ADBEEFDEADBEEF ^ c;
ulong a = d += c = c << 15 | c >> -15;
ulong b = a += d = d << 52 | d >> -52;
c ^= b += a = a << 26 | a >> -26;
d ^= c += b = b << 51 | b >> -51;
a ^= d += c = c << 28 | c >> -28;
b ^= a += d = d << 9 | d >> -9;
c ^= b += a = a << 47 | a >> -47;
d ^= c += b << 54 | b >> -54;
a ^= d += c << 32 | c >> 32;
a += d << 25 | d >> -25;
return (int)(a >> 1);
}
}

然后我的两个哈希表的能力不再吸了。好的。

但这让我很不安，因为上面的内容不应该奏效。或者更准确地说，除非最初的GetHashCode()在一个非常特殊的方面很差，否则它不应该起作用。好的。

重新混合hashcode不能改善一个好的hashcode，因为唯一可能的效果是我们引入了更多的冲突。好的。

重新混合哈希代码不能改善糟糕的哈希代码，因为唯一可能的效果是我们将值53上的大量冲突更改为值183487291的大量冲突。好的。

重新混合哈希代码只能改善哈希代码，它至少在避免整个范围内的绝对冲突(232个可能的值)方面做得相当好，但在避免模块为哈希表中的实际使用而停机时会很糟糕。虽然两个表的幂模的简单化使这一点更加明显，但它对更常见的素数表也有负面影响，这并不是很明显(在重设中的额外工作会超过好处，但好处仍然存在)。好的。

编辑：我还使用了开放式寻址，这也增加了对冲突的敏感度，也许比它是二的力量更重要。好的。

好吧，令人不安的是.NET(或本文的研究)中的string.GetHashCode()实现可以通过这种方式改进多少(由于碰撞更少，测试运行速度快了20-30倍)，更令人不安的是，我自己的哈希代码可以改进多少(远不止这些)。好的。

我以前编写的所有gethashcode()实现，实际上都是作为这个站点上答案的基础，比我通过的要糟糕得多。很多时候，它"足够好"用于很多用途，但我想要更好的东西。好的。

所以我把这个项目放到一边(不管怎么说，这是一个宠物项目)，并开始研究如何在.NET中快速生成一个良好的、分布良好的哈希代码。好的。

最后我决定把spokyhash移植到.net上。实际上，上面的代码是一个使用spokyhash从32位输入生成32位输出的快速路径版本。好的。

现在，spokyhash不是一个很好的快速记忆代码。我的港口更是如此，因为我手上有很多这样更好的速度*。但这就是代码重用的目的。好的。

然后我把这个项目放到一边，因为正如最初的项目产生了如何生成更好的哈希代码的问题，所以这个项目产生了如何生成更好的.NET memcpy的问题。好的。

然后我回来，生成了大量的重载，可以轻松地填充几乎所有本地类型(除了decimal)。转换为哈希代码。好的。

它很快，因为我移植的原始代码更快，所以鲍勃·詹金斯应该获得大部分荣誉，尤其是在算法优化的64位机器上。.好的。

完整的代码可以在https://bitback.org/jonhana/spookilyshap/src上看到，但是考虑到上面的代码是它的简化版本。好的。

然而，由于它现在已经写好了，人们可以更容易地利用它：好的。

1
2
3
4
5
6
7
8

public override int GetHashCode()
{
var hash = new SpookyHash();
hash.Update(field1);
hash.Update(field2);
hash.Update(field3);
return hash.Final().GetHashCode();
}

它还采用种子值，因此，如果需要处理不受信任的输入，并希望防止哈希DoS攻击，则可以基于正常运行时间或类似时间设置种子，并使攻击者无法预测结果：好的。

1
2
3
4
5
6
7
8
9
10
11
12
13

private static long hashSeed0 = Environment.TickCount;
private static long hashSeed1 = DateTime.Now.Ticks;
public override int GetHashCode()
{
//produce different hashes ever time this application is restarted
//but remain consistent in each run, so attackers have a harder time
//DoSing the hash tables.
var hash = new SpookyHash(hashSeed0, hashSeed1);
hash.Update(field1);
hash.Update(field2);
hash.Update(field3);
return hash.Final().GetHashCode();
}

*这方面的一个大惊喜是，手工引入了一个旋转方法，返回了(x << n) | (x >> -n)改进的东西。我本可以肯定，这种抖动对我来说是有内在影响的，但分析显示情况并非如此。好的。

？从.NET的角度来看，decimal不是本地的，尽管它是从C的角度来看的。它的问题在于，它自己的GetHashCode()将精度视为显著的，而它自己的Equals()则没有。两者都是有效的选择，但不能像那样混合。在实现自己的版本时，您需要选择其中一个，或者另一个，但是我不知道您想要哪个。好的。

？通过比较。如果在字符串上使用，64位上的spookyhash比32位上的string.GetHashCode()快得多，而64位上的string.GetHashCode()比32位上的spookyhash快得多，尽管速度仍足以作为合理的选择。好的。好啊。

相关讨论

当将多个哈希值组合成一个哈希值时，我倾向于使用long值作为中间结果，然后将最终结果分解为int。这是个好主意吗？我担心的是，如果使用hash=(hash*31)+nextfield，那么成对的匹配值只会影响hash的27位。把计算扩展到long并把材料包起来，可以将这种危险降到最低。
@超级咖啡，这取决于你最后一口的分布。spookilyshap库将通过将指针传递给一个Blittable类型，或者直接传递它处理的一个Enumerable类型，来确保分发是良好的(因为它不需要对象创建)，但是如果您还没有Blittable数据或合适的枚举，那么根据T调用具有多个值的.Update()。他以上的回答就可以了。
@乔汉娜，你愿意对你遇到的问题行为更准确些吗？我正在尝试实现一个使实现值对象变得简单(valueutils)的库，我希望有一个测试集证明两个哈希表的哈希可混性较差。
@埃蒙纳波恩，我真的没有什么比"这样总的时间慢"更精确的了。正如我在一篇编辑文章中所补充的，我使用开放寻址的事实可能比两个因素的威力更重要。我确实计划在一个特定的项目上做一些测试案例，在那里我将比较几种不同的方法，因此在那之后我可能会有一个更好的答案给你，尽管这不是一个高优先级的(一个没有迫切需要的个人项目，所以当我到达它的时候我会得到它…)
@乔汉娜：是的，我知道个人项目的日程安排——祝你好运！在任何情况下，我看到我没有很好地表达最后的评论：我的意思是请求有问题的输入，而不一定是结果问题的细节。我想把它作为一个测试集(或者测试集的灵感)。无论如何，祝你的宠物项目好运。
我敢打赌，你的ReHash是一个大骗局。我想，它工作得很好，但它可能比加密散列还要慢，而加密散列(某种程度上)被证明工作得很完美。Java还使用两个大小的表的功率，过去使用的是一个相当复杂的重散列。因为引入了用于冲突的树节点，所以简化了它。
@马阿蒂努斯在速度和分布方面，这是很好的证明。我现在的观点是，对于小价值来说，这比它的价值更麻烦。在散列非常大的值(如文件内容)时，我仍然会使用spokyhash的更完整的实现。

这是一个很好的例子：

/// <summary>
/// Helper class for generating hash codes suitable
/// for use in hashing algorithms and data structures like a hash table.
/// </summary>
public static class HashCodeHelper
{
private static int GetHashCodeInternal(int key1, int key2)
{
unchecked
{
var num = 0x7e53a269;
num = (-1521134295 * num) + key1;
num += (num << 10);
num ^= (num >> 6);

num = ((-1521134295 * num) + key2);
num += (num << 10);
num ^= (num >> 6);

return num;
}
}

/// <summary>
/// Returns a hash code for the specified objects
/// </summary>
/// <param name="arr">An array of objects used for generating the
/// hash code.</param>
/// <returns>
/// A hash code, suitable for use in hashing algorithms and data
/// structures like a hash table.
/// </returns>
public static int GetHashCode(params object[] arr)
{
int hash = 0;
foreach (var item in arr)
hash = GetHashCodeInternal(hash, item.GetHashCode());
return hash;
}

/// <summary>
/// Returns a hash code for the specified objects
/// </summary>
/// <param name="obj1">The first object.</param>
/// <param name="obj2">The second object.</param>
/// <param name="obj3">The third object.</param>
/// <param name="obj4">The fourth object.</param>
/// <returns>
/// A hash code, suitable for use in hashing algorithms and
/// data structures like a hash table.
/// </returns>
public static int GetHashCode<T1, T2, T3, T4>(T1 obj1, T2 obj2, T3 obj3,
T4 obj4)
{
return GetHashCode(obj1, GetHashCode(obj2, obj3, obj4));
}

/// <summary>
/// Returns a hash code for the specified objects
/// </summary>
/// <param name="obj1">The first object.</param>
/// <param name="obj2">The second object.</param>
/// <param name="obj3">The third object.</param>
/// <returns>
/// A hash code, suitable for use in hashing algorithms and data
/// structures like a hash table.
/// </returns>
public static int GetHashCode<T1, T2, T3>(T1 obj1, T2 obj2, T3 obj3)
{
return GetHashCode(obj1, GetHashCode(obj2, obj3));
}

/// <summary>
/// Returns a hash code for the specified objects
/// </summary>
/// <param name="obj1">The first object.</param>
/// <param name="obj2">The second object.</param>
/// <returns>
/// A hash code, suitable for use in hashing algorithms and data
/// structures like a hash table.
/// </returns>
public static int GetHashCode<T1, T2>(T1 obj1, T2 obj2)
{
return GetHashCodeInternal(obj1.GetHashCode(), obj2.GetHashCode());
}
}

下面是如何使用它：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

private struct Key
{
private Type _type;
private string _field;

public Type Type { get { return _type; } }
public string Field { get { return _field; } }

public Key(Type type, string field)
{
_type = type;
_field = field;
}

public override int GetHashCode()
{
return HashCodeHelper.GetHashCode(_field, _type);
}

public override bool Equals(object obj)
{
if (!(obj is Key))
return false;
var tf = (Key)obj;
return tf._field.Equals(_field) && tf._type.Equals(_type);
}
}

相关讨论

@马格纳斯，你能解释一下为什么它是一个好的吗？
如何确定钥匙？getHashCode()不接受任何参数，因此它需要用两个需要以某种方式确定的键来调用这个参数。对不起，没有进一步的解释，这看起来很聪明，但没那么好。
它不是我的哈希代码助手类的哈希代码生成部分。
为什么需要泛型重载？类型并不重要(在代码中也不使用)，因为所有对象都有一个GetHashCode()方法，因此可以始终将该方法与params数组参数一起使用。还是我在这里丢了什么？
这是关于性能的，避免使用小于等于4个字段的循环。但我想可以跳过泛型，只使用对象。
当您使用对象而不是泛型时，您将得到装箱和内存分配，这在gethashcode中是不需要的。所以，仿制药是我们的出路。
后面的shift/xor步骤(h += (h << 10); h ^= (h >> 6); h += (h << 3); h ^= (h >> 11); h += (h << 15);有一种代码味道：它们不依赖于任何输入，在我看来都是多余的。
@纳瓦尔，你有什么速度方面的考虑？
@麦格纳斯没有什么特别的，除了一般规则，散列必须快。这不能像我希望的那样快。但正如我所说，这可以提供更好的值分布，这可能适用于某些情况。
@Nawfal运行这1亿次大约需要390毫秒。运行jon skeet建议的解决方案1亿次大约需要320毫秒，所以这不是一个巨大的差异。
@马格纳斯是的，对，我会删除我的原始评论。请注意，这可能不如其他解决方案快，但正如您所说，不重要。分布很好，比这里的大多数解决方案都好，所以+1来自我！：)
这在质量(分布)和性能上与简单地使用long中间产物(每个输入都乘以一个大素数)相比有何区别？例如，对于两个值，类似于这一行：return ((long)v1 * 805306457 + (long)v2 * 189783887).GetHashCode();[选择素数是为了避免在检查环境中长的数字溢出，并倾向于设置不同的位。]

这里是jon skeet发布的上述算法的另一个流畅的实现，但不包括分配或装箱操作：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

public static class Hash
{
public const int Base = 17;

public static int HashObject(this int hash, object obj)
{
unchecked { return hash * 23 + (obj == null ? 0 : obj.GetHashCode()); }
}

public static int HashValue<T>(this int hash, T value)
where T : struct
{
unchecked { return hash * 23 + value.GetHashCode(); }
}
}

用途：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

public class MyType<T>
{
public string Name { get; set; }

public string Description { get; set; }

public int Value { get; set; }

public IEnumerable<T> Children { get; set; }

public override int GetHashCode()
{
return Hash.Base
.HashObject(this.Name)
.HashObject(this.Description)
.HashValue(this.Value)
.HashObject(this.Children);
}
}

编译器将确保不会由于泛型类型约束而使用类调用HashValue。但是没有对HashObject的编译器支持，因为添加泛型参数也会添加装箱操作。

这是我的简单方法。我使用的是经典的构建器模式。它是类型安全的(没有装箱/拆箱)，也兼容.NET 2.0(没有扩展方法等)。

使用方法如下：

1
2
3
4
5
6

public override int GetHashCode()
{
HashBuilder b = new HashBuilder();
b.AddItems(this.member1, this.member2, this.member3);
return b.Result;
}

这里是Acutal Builder类：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71

internal class HashBuilder
{
private const int Prime1 = 17;
private const int Prime2 = 23;
private int result = Prime1;

public HashBuilder()
{
}

public HashBuilder(int startHash)
{
this.result = startHash;
}

public int Result
{
get
{
return this.result;
}
}

public void AddItem<T>(T item)
{
unchecked
{
this.result = this.result * Prime2 + item.GetHashCode();
}
}

public void AddItems<T1, T2>(T1 item1, T2 item2)
{
this.AddItem(item1);
this.AddItem(item2);
}

public void AddItems<T1, T2, T3>(T1 item1, T2 item2, T3 item3)
{
this.AddItem(item1);
this.AddItem(item2);
this.AddItem(item3);
}

public void AddItems<T1, T2, T3, T4>(T1 item1, T2 item2, T3 item3,
T4 item4)
{
this.AddItem(item1);
this.AddItem(item2);
this.AddItem(item3);
this.AddItem(item4);
}

public void AddItems<T1, T2, T3, T4, T5>(T1 item1, T2 item2, T3 item3,
T4 item4, T5 item5)
{
this.AddItem(item1);
this.AddItem(item2);
this.AddItem(item3);
this.AddItem(item4);
this.AddItem(item5);
}

public void AddItems<T>(params T[] items)
{
foreach (T item in items)
{
this.AddItem(item);
}
}
}

相关讨论

从https://github.com/dotnet/corecrl/pull/14863开始，有一种生成哈希代码的新方法非常简单！只写

1 2	public override int GetHashCode() => HashCode.Combine(field1, field2, field3);

这将生成一个高质量的哈希代码，而不必担心实现细节。

相关讨论

resharper用户可以使用ReSharper -> Edit -> Generate Code -> Equality Members生成gethashcode、equals和其他。

1
2
3
4
5
6
7
8
9
10
11

// ReSharper's GetHashCode looks like this
public override int GetHashCode() {
unchecked {
int hashCode = Id;
hashCode = (hashCode * 397) ^ IntMember;
hashCode = (hashCode * 397) ^ OtherIntMember;
hashCode = (hashCode * 397) ^ (RefMember != null ? RefMember.GetHashCode() : 0);
// ...
return hashCode;
}
}

这和夜间编码器的解决方案非常相似，只是如果你想提高素数更容易。

PS：这是你嘴里吐了一点东西的时候，你知道这个方法可以重构成一个9默认值的方法，但是速度会变慢，所以你闭上眼睛，试着忘记它。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152

/// <summary>
/// Try not to look at the source code. It works. Just rely on it.
/// </summary>
public static class HashHelper
{
private const int PrimeOne = 17;
private const int PrimeTwo = 23;

public static int GetHashCode<T1, T2, T3, T4, T5, T6, T7, T8, T9, T10>(T1 arg1, T2 arg2, T3 arg3, T4 arg4, T5 arg5, T6 arg6, T7 arg7, T8 arg8, T9 arg9, T10 arg10)
{
unchecked
{
int hash = PrimeOne;
hash = hash * PrimeTwo + arg1.GetHashCode();
hash = hash * PrimeTwo + arg2.GetHashCode();
hash = hash * PrimeTwo + arg3.GetHashCode();
hash = hash * PrimeTwo + arg4.GetHashCode();
hash = hash * PrimeTwo + arg5.GetHashCode();
hash = hash * PrimeTwo + arg6.GetHashCode();
hash = hash * PrimeTwo + arg7.GetHashCode();
hash = hash * PrimeTwo + arg8.GetHashCode();
hash = hash * PrimeTwo + arg9.GetHashCode();
hash = hash * PrimeTwo + arg10.GetHashCode();

return hash;
}
}

public static int GetHashCode<T1, T2, T3, T4, T5, T6, T7, T8, T9>(T1 arg1, T2 arg2, T3 arg3, T4 arg4, T5 arg5, T6 arg6, T7 arg7, T8 arg8, T9 arg9)
{
unchecked
{
int hash = PrimeOne;
hash = hash * PrimeTwo + arg1.GetHashCode();
hash = hash * PrimeTwo + arg2.GetHashCode();
hash = hash * PrimeTwo + arg3.GetHashCode();
hash = hash * PrimeTwo + arg4.GetHashCode();
hash = hash * PrimeTwo + arg5.GetHashCode();
hash = hash * PrimeTwo + arg6.GetHashCode();
hash = hash * PrimeTwo + arg7.GetHashCode();
hash = hash * PrimeTwo + arg8.GetHashCode();
hash = hash * PrimeTwo + arg9.GetHashCode();

return hash;
}
}

public static int GetHashCode<T1, T2, T3, T4, T5, T6, T7, T8>(T1 arg1, T2 arg2, T3 arg3, T4 arg4, T5 arg5, T6 arg6, T7 arg7, T8 arg8)
{
unchecked
{
int hash = PrimeOne;
hash = hash * PrimeTwo + arg1.GetHashCode();
hash = hash * PrimeTwo + arg2.GetHashCode();
hash = hash * PrimeTwo + arg3.GetHashCode();
hash = hash * PrimeTwo + arg4.GetHashCode();
hash = hash * PrimeTwo + arg5.GetHashCode();
hash = hash * PrimeTwo + arg6.GetHashCode();
hash = hash * PrimeTwo + arg7.GetHashCode();
hash = hash * PrimeTwo + arg8.GetHashCode();

return hash;
}
}

public static int GetHashCode<T1, T2, T3, T4, T5, T6, T7>(T1 arg1, T2 arg2, T3 arg3, T4 arg4, T5 arg5, T6 arg6, T7 arg7)
{
unchecked
{
int hash = PrimeOne;
hash = hash * PrimeTwo + arg1.GetHashCode();
hash = hash * PrimeTwo + arg2.GetHashCode();
hash = hash * PrimeTwo + arg3.GetHashCode();
hash = hash * PrimeTwo + arg4.GetHashCode();
hash = hash * PrimeTwo + arg5.GetHashCode();
hash = hash * PrimeTwo + arg6.GetHashCode();
hash = hash * PrimeTwo + arg7.GetHashCode();

return hash;
}
}

public static int GetHashCode<T1, T2, T3, T4, T5, T6>(T1 arg1, T2 arg2, T3 arg3, T4 arg4, T5 arg5, T6 arg6)
{
unchecked
{
int hash = PrimeOne;
hash = hash * PrimeTwo + arg1.GetHashCode();
hash = hash * PrimeTwo + arg2.GetHashCode();
hash = hash * PrimeTwo + arg3.GetHashCode();
hash = hash * PrimeTwo + arg4.GetHashCode();
hash = hash * PrimeTwo + arg5.GetHashCode();
hash = hash * PrimeTwo + arg6.GetHashCode();

return hash;
}
}

public static int GetHashCode<T1, T2, T3, T4, T5>(T1 arg1, T2 arg2, T3 arg3, T4 arg4, T5 arg5)
{
unchecked
{
int hash = PrimeOne;
hash = hash * PrimeTwo + arg1.GetHashCode();
hash = hash * PrimeTwo + arg2.GetHashCode();
hash = hash * PrimeTwo + arg3.GetHashCode();
hash = hash * PrimeTwo + arg4.GetHashCode();
hash = hash * PrimeTwo + arg5.GetHashCode();

return hash;
}
}

public static int GetHashCode<T1, T2, T3, T4>(T1 arg1, T2 arg2, T3 arg3, T4 arg4)
{
unchecked
{
int hash = PrimeOne;
hash = hash * PrimeTwo + arg1.GetHashCode();
hash = hash * PrimeTwo + arg2.GetHashCode();
hash = hash * PrimeTwo + arg3.GetHashCode();
hash = hash * PrimeTwo + arg4.GetHashCode();

return hash;
}
}

public static int GetHashCode<T1, T2, T3>(T1 arg1, T2 arg2, T3 arg3)
{
unchecked
{
int hash = PrimeOne;
hash = hash * PrimeTwo + arg1.GetHashCode();
hash = hash * PrimeTwo + arg2.GetHashCode();
hash = hash * PrimeTwo + arg3.GetHashCode();

return hash;
}
}

public static int GetHashCode<T1, T2>(T1 arg1, T2 arg2)
{
unchecked
{
int hash = PrimeOne;
hash = hash * PrimeTwo + arg1.GetHashCode();
hash = hash * PrimeTwo + arg2.GetHashCode();

return hash;
}
}
}

相关讨论

我的大部分工作都是通过数据库连接完成的，这意味着我的类都具有来自数据库的唯一标识符。我总是使用数据库中的ID来生成哈希代码。

1
2
3
4
5
6
7

// Unique ID from database
private int _id;

...
{
return _id.GetHashCode();
}

相关讨论

如果我们的属性不超过8个(希望如此)，这里还有另一个选择。

ValueTuple是一个结构，似乎具有可靠的GetHashCode实现。

这意味着我们可以简单地做到：

1 2	// Yay, no allocations and no custom implementations! public override int GetHashCode() => (this.PropA, this.PropB).GetHashCode();

让我们来看一下.NET核心目前对ValueTuple的GetHashCode的实现。

来自ValueTuple：

1
2
3
4
5
6
7
8
9

internal static int CombineHashCodes(int h1, int h2)
{
return HashHelpers.Combine(HashHelpers.Combine(HashHelpers.RandomSeed, h1), h2);
}

internal static int CombineHashCodes(int h1, int h2, int h3)
{
return HashHelpers.Combine(CombineHashCodes(h1, h2), h3);
}

这是来自HashHelper的：

1
2
3
4
5
6
7
8
9
10
11
12

public static readonly int RandomSeed = Guid.NewGuid().GetHashCode();

public static int Combine(int h1, int h2)
{
unchecked
{
// RyuJIT optimizes this to use the ROL instruction
// Related GitHub pull request: dotnet/coreclr#1830
uint rol5 = ((uint)h1 << 5) | ((uint)h1 >> 27);
return ((int)rol5 + h1) ^ h2;
}
}

英语：

左旋转(圆周移动)h1 5个位置。
将结果和h1相加。
xor结果与h2。
首先对静态随机种子h1执行上述操作。
对于每个进一步的项目，对上一个结果和下一个项目(例如h2)执行操作。

最好了解更多关于这个rol-5散列码算法的属性。

遗憾的是，为我们自己的GetHashCode而向ValueTuple延期可能没有我们希望和期望的那么快。相关讨论中的这一评论说明直接调用HashHelpers.Combine更有效。另一方面，这是内部的，所以我们必须复制代码，牺牲我们在这里所获得的大部分。此外，我们还负责记住第一个随机种子的Combine。我不知道如果我们跳过那一步会有什么后果。

相关讨论

使用上面选择的实现，我遇到了一个带有浮点和小数的问题。

此测试失败(浮动；哈希相同，即使我将2个值切换为负数)：

1
2
3
4
5

但是这个测试通过了(带ints)：

1
2
3
4
5

我将实现改为不对基元类型使用gethashcode，它似乎工作得更好

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

private static int InternalComputeHash(params object[] obj)
{
unchecked
{
var result = (int)SEED_VALUE_PRIME;
for (uint i = 0; i < obj.Length; i++)
{
var currval = result;
var nextval = DetermineNextValue(obj[i]);
result = (result * MULTIPLIER_VALUE_PRIME) + nextval;

}
return result;
}
}

private static int DetermineNextValue(object value)
{
unchecked
{

int hashCode;
if (value is short
|| value is int
|| value is byte
|| value is sbyte
|| value is uint
|| value is ushort
|| value is ulong
|| value is long
|| value is float
|| value is double
|| value is decimal)
{
return Convert.ToInt32(value);
}
else
{
return value != null ? value.GetHashCode() : 0;
}
}
}

相关讨论

微软领导了几种散列方法…

1
2
3
4
5
6
7
8
9
10
11
12
13
14

//for classes that contain a single int value
return this.value;

//for classes that contain multiple int value
return x ^ y;

//for classes that contain single number bigger than int
return ((int)value ^ (int)(value >> 32));

//for classes that contain class instance fields which inherit from object
return obj1.GetHashCode();

//for classes that contain multiple class instance fields which inherit from object
return obj1.GetHashCode() ^ obj2.GetHashCode() ^ obj3.GetHashCode();

我可以猜测，对于多个大整数，可以使用这个：

1
2
3
4

int a=((int)value1 ^ (int)(value1 >> 32));
int b=((int)value2 ^ (int)(value2 >> 32));
int c=((int)value3 ^ (int)(value3 >> 32));
return a ^ b ^ c;

多类型相同：全部使用GetHashCode()首先转换为int。然后将对int值执行异或运算，结果是散列值。

对于那些使用hash作为id(我的意思是一个唯一的值)的人，hash自然被限制在数字的数量上，我认为它对于hash算法是5个字节，至少是md5。

您可以将多个值转换为哈希值，其中一些值是相同的，因此不要将其用作标识符。(也许有一天我会用你的组件)

相关讨论