从数据框中提取特定的列
我有一个R数据框6列,我想创build一个新的数据框,只有三个列。
假设我的数据框是df
,并且我想提取列A
, B
和E
,这是我能弄清楚的唯一命令:
data.frame(df$A,df$B,df$E)
有没有更紧凑的方式来做到这一点?
就在这里。
# data for reproducible example # (and to avoid confusion from trying to subset `stats::df`) df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5]) # subset df[,c("A","B","E")]
这是subset()
函数的作用:
> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) > subset(dat, select=c("A", "B")) AB 1 1 3 2 2 4
有两个明显的select:Joshua Ulrich的df[,c("A","B","E")]
或
df[,c(1,2,5)]
如在
> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) > df ABCDEF 1 1 3 5 7 8 9 2 2 4 6 7 8 9 > df[,c(1,2,5)] ABE 1 1 3 8 2 2 4 8 > df[,c("A","B","E")] ABE 1 1 3 8 2 2 4 8
使用dplyr包,如果您的data.frame被称为df1
:
library(dplyr) df1 %>% select(A, B, E)
这也可以写入没有%>%
pipe道:
select(df1, A, B, E)
再次使用dplyr,其中df1是您的原始数据框:
df2 <- subset(df1, select = c(1, 2, 5))
您还可以使用在Rdataframe上执行select的sqldf
包,如下所示:
df1 < – sqldf(“从dfselectA,B,E”)
这给出了输出dataframedf1
的列:A,B,E。
[
和子集是不可替代的:
如果只select一列,则返回一个向量。
df = data.frame(a="a",b="b") identical( df[,c("a")], subset(df,select="a") ) identical( df[,c("a","b")], subset(df,select=c("a","b")) )
仅出于某种原因
df[, (names(df) %in% c("A","B","E"))]
为我工作。 所有上述语法都产生了“未定义的列被选中”。