将string切换成固定宽度字符元素的向量

我有一个包含文本string的对象：

x <- "xxyyxyxy"

我想把它变成一个vector，每个元素包含两个字母：

 [1] "xx" "yy" "xy" "xy"

它似乎像strsplit（）应该是我的票，但由于我没有正则expression式富，我不知道如何使这个function砍我的string的方式，我想它。我应该怎么做？

使用子string是最好的方法：

 substring(x, seq(1,nchar(x),2), seq(2,nchar(x),2))

但是这里有一个plyr的解决scheme：

 library("plyr") laply(seq(1,nchar(x),2), function(i) substr(x, i, i+1))

怎么样

 strsplit(gsub("([[:alnum:]]{2})", "\\1 ", x), " ")[[1]]

基本上，添加一个分隔符（在这里“”），然后使用strsplit

这是一个快速的解决scheme，将string拆分为字符，然后将偶数元素和奇数元素粘贴在一起。

 x <- "xxyyxyxy" sst <- strsplit(x, "")[[1]] paste0(sst[c(TRUE, FALSE)], sst[c(FALSE, TRUE)])

基准设置：

 library(microbenchmark) GSee <- function(x) { sst <- strsplit(x, "")[[1]] paste0(sst[c(TRUE, FALSE)], sst[c(FALSE, TRUE)]) } Shane1 <- function(x) { substring(x, seq(1,nchar(x),2), seq(2,nchar(x),2)) } library("plyr") Shane2 <- function(x) { laply(seq(1,nchar(x),2), function(i) substr(x, i, i+1)) } seth <- function(x) { strsplit(gsub("([[:alnum:]]{2})", "\\1 ", x), " ")[[1]] } geoffjentry <- function(x) { idx <- 1:nchar(x) odds <- idx[(idx %% 2) == 1] evens <- idx[(idx %% 2) == 0] substring(x, odds, evens) } drewconway <- function(x) { c<-strsplit(x,"")[[1]] sapply(seq(2,nchar(x),by=2),function(y) paste(c[y-1],c[y],sep="")) } KenWilliams <- function(x) { n <- 2 sapply(seq(1,nchar(x),by=n), function(xx) substr(x, xx, xx+n-1)) } RichardScriven <- function(x) { regmatches(x, gregexpr("(.{2})", x))[[1]] }

基准1：

 x <- "xxyyxyxy" microbenchmark( GSee(x), Shane1(x), Shane2(x), seth(x), geoffjentry(x), drewconway(x), KenWilliams(x), RichardScriven(x) ) # Unit: microseconds # expr min lq median uq max neval # GSee(x) 8.032 12.7460 13.4800 14.1430 17.600 100 # Shane1(x) 74.520 80.0025 84.8210 88.1385 102.246 100 # Shane2(x) 1271.156 1288.7185 1316.6205 1358.5220 3839.300 100 # seth(x) 36.318 43.3710 45.3270 47.5960 67.536 100 # geoffjentry(x) 9.150 13.5500 15.3655 16.3080 41.066 100 # drewconway(x) 92.329 98.1255 102.2115 105.6335 115.027 100 # KenWilliams(x) 77.802 83.0395 87.4400 92.1540 163.705 100 # RichardScriven(x) 55.034 63.1360 65.7545 68.4785 108.043 100

基准2：

现在，更大的数据。

 x <- paste(sample(c("xx", "yy", "xy"), 1e5, replace=TRUE), collapse="") microbenchmark( GSee(x), Shane1(x), Shane2(x), seth(x), geoffjentry(x), drewconway(x), KenWilliams(x), RichardScriven(x), times=3 ) # Unit: milliseconds # expr min lq median uq max neval # GSee(x) 29.029226 31.3162690 33.603312 35.7046155 37.805919 3 # Shane1(x) 11754.522290 11866.0042600 11977.486230 12065.3277955 12153.169361 3 # Shane2(x) 13246.723591 13279.2927180 13311.861845 13371.2202695 13430.578694 3 # seth(x) 86.668439 89.6322615 92.596084 92.8162885 93.036493 3 # geoffjentry(x) 11670.845728 11681.3830375 11691.920347 11965.3890110 12238.857675 3 # drewconway(x) 384.863713 438.7293075 492.594902 515.5538020 538.512702 3 # KenWilliams(x) 12213.514508 12277.5285215 12341.542535 12403.2315015 12464.920468 3 # RichardScriven(x) 11549.934241 11730.5723030 11911.210365 11989.4930080 12067.775651 3

strsplit会有问题，请看这样的正则expression式

 strsplit(z, '[[:alnum:]]{2}')

它会分裂在正确的点，但没有剩下。

你可以使用substring和朋友

 z <- 'xxyyxyxy' idx <- 1:nchar(z) odds <- idx[(idx %% 2) == 1] evens <- idx[(idx %% 2) == 0] substring(z, odds, evens)

总的来说，JD，但它完成

 x <- "xxyyxyxy" c<-strsplit(x,"")[[1]] sapply(seq(2,nchar(x),by=2),function(y) paste(c[y-1],c[y],sep="")) [1] "xx" "yy" "xy" "xy"

这是一种方法，但不使用正则expression式：

 a <- "xxyyxyxy" n <- 2 sapply(seq(1,nchar(a),by=n), function(x) substr(a, x, x+n-1))

注意子string，如果string长度不是你要求的长度的倍数，那么你将需要在第二个序列中的+（n-1） ：

 substring(x,seq(1,nchar(x),n),seq(n,nchar(x)+n-1,n))

辅助function：

 fixed_split <- function(text, n) { strsplit(text, paste0("(?<=.{",n,"})"), perl=TRUE) } fixed_split(x, 2) [[1]] [1] "xx" "yy" "xy" "xy"

将string切换成固定宽度字符元素的向量

使用grep匹配不同可能性的string

如何在R data.frame中添加按组的唯一值计数

在R中用ggplot2理解date和绘制直方图

使用group_by（多个variables）时dplyr问题

如何只读select从一个文件列到R？（`read.table`和`scan`之间的快乐媒介？）

增加图例字体大小ggplot2

dynamic创build带有shiny图的标签，而无需重新创build现有标签

如何将函数应用于R中matrix（或dataframe）的每一行

多行注释变通办法？

在R中使用ggplot2创build“雷达图”（aka star plot; spider plot）

将string切换成固定宽度字符元素的向量

使用grep匹配不同可能性的string

如何在R data.frame中添加按组的唯一值计数

在R中用ggplot2理解date和绘制直方图

使用group_by（多个variables）时dplyr问题

如何只读select从一个文件列到R？ （`read.table`和`scan`之间的快乐媒介？）

增加图例字体大小ggplot2

dynamic创build带有shiny图的标签，而无需重新创build现有标签

如何将函数应用于R中matrix（或dataframe）的每一行

多行注释变通办法？

在R中使用ggplot2创build“雷达图”（aka star plot; spider plot）

如何只读select从一个文件列到R？（`read.table`和`scan`之间的快乐媒介？）