如何在python中实现一个好的__hash__函数
当实现一个具有多个属性的类(如下面的玩具示例)时,处理散列的最佳方法是什么?
我猜__eq__
和__hash__
应该是一致的,但如何实现一个合适的散列函数,能够处理所有的属性?
class AClass: def __init__(self): self.a = None self.b = None def __eq__(self, other): return other and self.a == other.a and self.b == other.b def __ne__(self, other): return not self.__eq__(other) def __hash__(self): return hash((self.a, self.b))
我在这个问题上读到元组是可散列的,所以我想知道是否像上面的例子是明智的。 是吗?
__hash__
应该为相等的对象返回相同的值。 它也不应该改变对象的生命周期; 一般你只能实现它的不可变对象。
一个简单的实现将只是return 0
。 这总是正确的,但performance不佳。
你的解决scheme,返回一个属性元组的散列是好的。 但是请注意,您不需要列出元组中__eq__
中比较的所有属性。 如果一些财产对不平等的物品通常具有相同的价值,就把它排除在外。 不要让哈希计算比它需要更昂贵。
编辑:我会build议不要使用异或混合散列一般。 当两个不同的属性具有相同的值时,它们将具有相同的散列值,并且xor这些将相互取消。 元组使用更复杂的计算来混合哈希,参见tupleobject.c
tuplehash
。
写作是危险的
def __eq__(self, other): return other and self.a == other.a and self.b == other.b
因为如果你的rhs(即other
)对象的计算结果是布尔型的,那么它永远不会与任何东西相等!
另外,你可能要仔细检查other
属于AClass
的类或子类。 如果没有,你会得到exceptionAttributeError
或误报(如果其他类碰巧具有相同值的相同命名的属性)。 所以我build议将__eq__
重写为:
def __eq__(self, other): return isinstance(other, self.__class__) and self.a == other.a and self.b == other.b
如果有机会,你想要一个非常灵活的比较,只要属性匹配的名称匹配跨不相关的类,你仍然希望至less避免AttributeError
并检查other
没有任何额外的属性。 你怎么做取决于情况(因为没有标准的方法来查找对象的所有属性)。
object.__hash__(self)
文档object.__hash__(self)
唯一需要的属性是比较相等的对象具有相同的散列值; build议以某种方式混合在一起(例如使用排他或)散列值的对象的组成部分,也发挥作用的比较对象的一部分。
def __hash__(self): return hash(self.a) ^ hash(self.b)