Tag: bigdata

PySpark DataFrames – 枚举的方式不转换为pandas?

我有一个非常大的名为df的pyspark.sql.dataframe.DataFrame 。 我需要一些枚举logging的方法,从而能够访问具有特定索引的logging。 (或select索引范围的logging组) pandas,我可以做 indexes=[2,3,6,7] df[indexes] 在这里我想要类似的东西(并且不把数据框转换成pandas) 我能find的最接近的是: 通过以下方式枚举原始数据框中的所有对象: indexes=np.arange(df.count()) df_indexed=df.withColumn('index', indexes) 使用where()函数search我需要的值。 问题: 为什么它不工作,如何使它工作? 如何将一行添加到数据框? 稍后会做出如下的工作: indexes=[2,3,6,7] df1.where("index in indexes").collect() 任何更快,更简单的方法来处理它?

hadoop map减less二次sorting

任何人都可以解释我在hadoop中如何进行二级分类吗? 为什么必须使用GroupingComparator ,它在hadoop中是如何工作的? 我正在浏览下面给出的链接,并对groupcomapator的工作原理有疑问。 任何人都可以解释分组比较器是如何工作的吗? http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html

计算和保存PostgreSQL中的空间

我有一张桌子,像这样: CREATE TABLE t ( a BIGSERIAL NOT NULL, — 8 b b SMALLINT, — 2 b c SMALLINT, — 2 b d REAL, — 4 b e REAL, — 4 b f REAL, — 4 b g INTEGER, — 4 b h REAL, — 4 b i REAL, — 4 b j SMALLINT, — […]