Tag: python

Python 3.3中的散列函数在会话之间返回不同的结果

我已经在Python 3.3中实现了一个BloomFilter,每次会话都得到不同的结果。 深入研究这个奇怪的行为使我得到了内部的hash()函数 – 它为每个会话返回同一个string的不同散列值。 例: >>> hash("235") -310569535015251310 —–打开一个新的python控制台—– >>> hash("235") -1900164331622581997 为什么发生这种情况? 为什么这是有用的?

如何总结字典元素

在Python中,我有一个dicts列表: dict1 = [{'a':2, 'b':3},{'a':3, 'b':4}] 我想要一个包含所有字典总和的最后一个字典。 即结果将是: {'a':5, 'b':7} 注意:列表中的每个字典都包含相同数量的键值对。

Python编译器错误,x不需要参数(给出1)

我正在写一小段python作为家庭作业,而我却没有把它运行起来! 我没有太多的Python经验,但是我知道很多Java。 我试图实现一个粒子群优化algorithm,这里是我有: class Particle: def __init__(self,domain,ID): self.ID = ID self.gbest = None self.velocity = [] self.current = [] self.pbest = [] for x in range(len(domain)): self.current.append(random.randint(domain[x][0],domain[x][1])) self.velocity.append(random.randint(domain[x][0],domain[x][1])) self.pbestx = self.current def updateVelocity(): for x in range(0,len(self.velocity)): self.velocity[x] = 2*random.random()*(self.pbestx[x]-self.current[x]) + 2 * random.random()*(self.gbest[x]-self.current[x]) def updatePosition(): for x in range(0,len(self.current)): self.current[x] = self.current[x] + self.velocity[x] […]

我们如何使用SQL-esque“LIKE”标准来join两个Spark SQL数据框?

我们正在使用与Spark 1.3.1接口的PySpark库。 我们有两个数据框: documents_df := {document_id, document_text}和keywords_df := {keyword} 。 我们希望join两个数据框,并使用keyword_df.keyword出现在document_df.document_textstring中的条件返回带有{document_id, keyword}对的结果数据框。 例如,在PostgreSQL中,我们可以使用以下forms的ON子句来实现: document_df.document_text ilike '%' || keyword_df.keyword || '%' 然而,在PySpark中,我无法获得任何forms的连接语法。 有没有人做过这样的事情? 亲切的问候, 将

numpy.array .__ iadd__和重复的索引

我有一个数组: A = np.array([0, 0, 0]) 和重复索引列表: idx = [0, 0, 1, 1, 2, 2] 另一个数组我想用上面的索引添加到A: B = np.array([1, 1, 1, 1, 1, 1]) 操作: A[idx] += B 给出结果: array([1, 1, 1]) 1,1,1 array([1, 1, 1]) ,所以显然B中的值没有被总结。 获得结果array([2, 2, 2])的最佳方式是什么array([2, 2, 2]) ? 我必须迭代索引吗?

为什么subprocess.Popen不工作时,参数序列?

我有一个subprocess.Popen时args参数给出序列的问题。 例如: import subprocess maildir = "/home/support/Maildir" 这工作(它打印/ home / support / Maildir目录的正确大小): size = subprocess.Popen(["du -s -b " + maildir], shell=True, stdout=subprocess.PIPE).communicate()[0].split()[0] print size 但是,这不起作用(尝试): size = subprocess.Popen(["du", "-s -b", maildir], shell=True, stdout=subprocess.PIPE).communicate()[0].split()[0] print size 怎么了?

为什么一个类的主体在定义时间被执行?

与函数相反,类的主体在定义时执行: class A(object): print 'hello' date: hello 为什么是这样? 它与@classmethod / @staticmethod方法和类属性有关吗?

Python – 从函数输出?

我有一个非常基本的问题。 假设我调用一个函数,例如, def foo(): x = 'hello world' 我如何获得函数返回x的方式,我可以使用它作为另一个函数的input或使用程序的正文内的variables? 当我使用返回并在另一个函数内调用该variables时,我得到一个NameError。

我怎样才能在Python中将string转换为int?

我得到我的小示例应用程序的输出如下: Welcome to the Calculator! Please choose what you'd like to do: 0: Addition 1: Subtraction 2: Multiplication 3: Division 4: Quit Application 0 Enter your first number: 1 Enter your second number: 1 Your result is: 11 这是因为addition()方法将input()作为string而不是数字。 我怎样才能将它们用作数字? 这是我的整个脚本: def addition(a, b): return a + b def subtraction(a, b): return a – b […]

如何将Vector分割成列 – 使用PySpark

上下文:我有一个DataFrame 2列:单词和vector。 其中“向量”的列types是VectorUDT 。 一个例子: word | vector assert | [435,323,324,212…] 我想得到这个: word | v1 | v2 | v3 | v4 | v5 | v6 …… assert | 435 | 5435| 698| 356|…. 题: 如何使用pyspark为每个维度在多个列中使用向量分隔列? 提前致谢