Tag: dataframe

如何运行2个函数在单个RDD上使用pyspark并行执行完全独立的转换?

我试图运行2个函数在单个RDD上使用pyspark并行执行完全独立的转换。 有什么办法可以做同样的事情? def doXTransforms(sampleRDD): (X transforms) def doYTransforms(sampleRDD): (Y Transforms) if __name__ == "__main__": sc = SparkContext(appName="parallelTransforms") sqlContext = SQLContext(sc) hive_context = HiveContext(sc) rows_rdd = hive_context.sql("select * from tables.X_table") p1 = Process(target=doXTransforms , args=(rows_rdd,)) p1.start() p2 = Process(target=doYTransforms, args=(rows_rdd,)) p2.start() p1.join() p2.join() sc.stop() 这不起作用,我现在明白这是行不通的。 但是有没有其他方法可以使这项工作? 具体是否有任何python-spark特定的解决scheme?

如何将Vector分割成列 – 使用PySpark

上下文:我有一个DataFrame 2列:单词和vector。 其中“向量”的列types是VectorUDT 。 一个例子: word | vector assert | [435,323,324,212…] 我想得到这个: word | v1 | v2 | v3 | v4 | v5 | v6 …… assert | 435 | 5435| 698| 356|…. 题: 如何使用pyspark为每个维度在多个列中使用向量分隔列? 提前致谢

改变使用样式和css的pandas数据框html表python中的文本的颜色

我有一个pandas数据框: arrays = [['Midland', 'Midland', 'Hereford', 'Hereford', 'Hobbs','Hobbs', 'Childress', 'Childress', 'Reese', 'Reese', 'San Angelo', 'San Angelo'], ['WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS']] tuples = list(zip(*arrays)) index = pd.MultiIndex.from_tuples(tuples) df = pd.DataFrame(np.random.randn(12, 4), index=arrays, columns=['00 UTC', '06 UTC', '12 UTC', '18 UTC']) 从这个打印df的表看起来像这样: 我想为“MOS”行中的所有值着色一定的颜色,并为左侧的两个索引/标题列以及顶部标题行着色,而不是其余的具有值的单元格。 任何想法,我可以做到这一点?

将数据从长格式转换为具有多个度量列的宽格式

我有困难找出最优雅和灵活的方式来切换数据从长格式到宽格式,当我有多个度量variables我想带。 例如,这是一个长格式的简单数据框。 ID是主题,TIME是时间variables,X和Y是在TIME进行的ID测量: > my.df <- data.frame(ID=rep(c("A","B","C"), 5), TIME=rep(1:5, each=3), X=1:15, Y=16:30) > my.df ID TIME XY 1 A 1 1 16 2 B 1 2 17 3 C 1 3 18 4 A 2 4 19 5 B 2 5 20 6 C 2 6 21 7 A 3 7 22 8 B 3 […]

在一个dataframe中每个组随机抽样n行

从这些问题 – R数据框的子集中的行的随机样本和数据框中的 样本随机行我可以很容易地看到如何随机地从df或“n”行中抽样(select)'n'行,这些行来自特定级别在一个df内的一个因素。 以下是一些示例数据: df <- data.frame(matrix(rnorm(80), nrow=40)) df$color <- rep(c("blue", "red", "yellow", "pink"), each=10) df[sample(nrow(df), 3), ] #samples 3 random rows from df, without replacement. 例如,只需从“粉红”颜色中抽取3个随机行 – 使用library(kimisc) : library(kimisc) sample.rows(subset(df, color == "pink"), 3) 或编写自定义function: sample.df <- function(df, n) df[sample(nrow(df), n), , drop = FALSE] sample.df(subset(df, color == "pink"), 3) 但是,我想从该因子的每个级别抽样3(或n)个随机行。 即新的DF将有12行(蓝色3,红色3,黄色3,粉红色3)。 […]

Rdataframe中的行数基于组

我有这样的数据框在R : ID MONTH-YEAR VALUE 110 JAN. 2012 1000 111 JAN. 2012 2000 . . . . 121 FEB. 2012 3000 131 FEB. 2012 4000 . . . . 因此,每年每个月有n行,他们可以以任何顺序(意思是他们都不是连续的,并在rest)。 我想计算每个MONTH-YEAR有多less行,即JAN有多less行。 2012年,FEB有多less。 2012年等。 像这样的东西: MONTH-YEAR NUMBER OF ROWS JAN. 2012 10 FEB. 2012 13 MAR. 2012 6 APR. 2012 9 我试图做到这一点: n_row <- nrow(dat1_frame %.% […]

一次重塑多个值

我有一个很长的数据集,我想扩大,我很好奇,如果有一种方法,在R一步使用reshape2或tidyr包完成这一切。 dataframedf如下所示: id type transactions amount 20 income 20 100 20 expense 25 95 30 income 50 300 30 expense 45 250 我想要得到这个: id income_transactions expense_transactions income_amount expense_amount 20 20 25 100 95 30 50 45 300 250 我知道我可以通过例如reshape2获得部分path: dcast(df, id ~ type, value.var="transactions") 但是,是否有办法一次性重塑整个DF,同时解决“交易”和“金额”两个variables? 理想情况下,新的更适合的列名称?

从数据框中生成垃圾箱

使用Python我已经创build了以下数据框,其中包含相似性值: cosinFcolor cosinEdge cosinTexture histoFcolor histoEdge histoTexture jaccard 1 0.770 0.489 0.388 0.57500000 0.5845137 0.3920000 0.00000000 2 0.067 0.496 0.912 0.13865546 0.6147309 0.6984127 0.00000000 3 0.514 0.426 0.692 0.36440678 0.4787535 0.5198413 0.05882353 4 0.102 0.430 0.739 0.11297071 0.5288008 0.5436508 0.00000000 5 0.560 0.735 0.554 0.48148148 0.8168083 0.4603175 0.00000000 6 0.029 0.302 0.558 0.08547009 0.3928234 0.4603175 […]

data.frame方法最有效的列表?

刚刚和同事谈了这件事情,我们认为值得看看SO土地上的人不得不说什么。 假设我有一个包含N个元素的列表,其中每个元素都是一个长度为X的向量。现在假设我想将其转换为一个data.frame。 与R中的大多数事物一样,有许多方法可以将谚语猫皮肤化,比如as.dataframe ,使用plyr软件包,与cbind结合使用do.call ,预先分配DF并填充它们等等。 提出的问题是当N或X(在我们的例子中是X)变得非常大时会发生什么。 有效的猫(特别是在记忆方面)的本质是否有一种猫皮方法明显优越?

将一列添加到data.frame

我有下面的data.frame。 我想添加一个列,按照第1列( h_no )对数据进行分类,即h_no 1,2,3,4的第一个序列是class 1, h_no (1到7)的第二个序列是class 2如最后一栏所示。 h_no h_freq h_freqsq 1 0.09091 0.008264628 1 2 0.00000 0.000000000 1 3 0.04545 0.002065702 1 4 0.00000 0.000000000 1 1 0.13636 0.018594050 2 2 0.00000 0.000000000 2 3 0.00000 0.000000000 2 4 0.04545 0.002065702 2 5 0.31818 0.101238512 2 6 0.00000 0.000000000 2 7 0.50000 0.250000000 […]