在R数据框中查找重复行重复的次数

我有一个像下面的例子一样的数据框

a = c(1, 1, 1, 2, 2, 3, 4, 4) b = c(3.5, 3.5, 2.5, 2, 2, 1, 2.2, 7) df <-data.frame(a,b)

我可以通过下面的代码从R数据框中删除重复的行，但我怎样才能find每个重复的行重复多less次？我需要结果作为一个向量。

 unique(df)

要么

 df[!duplicated(df), ]

这里是从库plyr使用函数ddply()解决scheme

 library(plyr) ddply(df,.(a,b),nrow) ab V1 1 1 2.5 1 2 1 3.5 2 3 2 2.0 2 4 3 1.0 1 5 4 2.2 1 6 4 7.0 1

你总是可以一箭双雕杀死两只鸟：

 aggregate(list(numdup=rep(1,nrow(df))), df, length) # or even: aggregate(numdup ~., data=transform(df,numdup=1), length) # or even: aggregate(cbind(df[0],numdup=1), df, length) ab numdup 1 3 1.0 1 2 2 2.0 2 3 4 2.2 1 4 1 2.5 1 5 1 3.5 2 6 4 7.0 1

这里有两种方法。

 # a example data set that is not sorted DF <-data.frame(replicate(sequence(1:3),n=2)) # example using similar idea to duplicated.data.frame count.duplicates <- function(DF){ x <- do.call('paste', c(DF, sep = '\r')) ox <- order(x) rl <- rle(x[ox]) cbind(DF[ox[cumsum(rl$lengths)],,drop=FALSE],count = rl$lengths) } count.duplicates(DF) # X1 X2 count # 4 1 1 3 # 5 2 2 2 # 6 3 3 1 # a far simpler `data.table` approach library(data.table) count.dups <- function(DF){ DT <- data.table(DF) DT[,.N, by = names(DT)] } count.dups(DF) # X1 X2 N # 1: 1 1 3 # 2: 2 2 2 # 3: 3 3 1

使用dplyr：

 summarise(group_by(df,a,b),length(b))

要么

 group_size(group_by(df,a,b)) #[1] 1 2 2 1 1 1

在R数据框中查找重复行重复的次数

错误：无法findfunction…在R

确切地了解data.table何时是另一个data.table的引用（vs另一个副本）

R中“throw”的等价

使用D3和Shiny在R中实现`identify（）`

在R中的同一图中绘制两个图

如何修剪R中的前导和尾随空白？

R命令将工作目录设置为源文件位置

如何将注释中的文本与ggplot2alignment

创build堆叠的barplot，其中每个堆栈被缩放到总和为100％

获取和删除string的第一个字符