R 在单元格中拆分数据
我有一个像这样的数据集R 在单元格中拆分数据,r,dataframe,R,Dataframe,我有一个像这样的数据集 Code Product 1 A|B 2 A|B|C 3 A|B|C|D|E 当我使用colsplit函数拆分列Product时,会发生重复。colsplit函数的输出如下所示: Code Product.1 Product.2 Product.3 Product.4 Product.5 1 A B A B A 2 A
Code Product
1 A|B
2 A|B|C
3 A|B|C|D|E
当我使用colsplit
函数拆分列Product
时,会发生重复。colsplit
函数的输出如下所示:
Code Product.1 Product.2 Product.3 Product.4 Product.5
1 A B A B A
2 A B C A B
3 A B C D E
这是因为其中一个细胞含有五种元素。有没有办法避免这种重复
谢谢和问候
Jayaram更新(2013年10月21日)
在我的“splitstackshape”软件包中,下面的概念已被集成到名为concat.split.*
的函数族中。下面是一个非常简单的解决方案,使用concat.split.multiple
:
library(splitstackshape)
concat.split.multiple(temp, "Product", "|", "long")
# Code time Product
# 1 1 1 A
# 2 2 1 A
# 3 3 1 A
# 4 1 2 B
# 5 2 2 B
# 6 3 2 B
# 7 1 3 <NA>
# 8 2 3 C
# 9 3 3 C
# 10 1 4 <NA>
# 11 2 4 <NA>
# 12 3 4 D
# 13 1 5 <NA>
# 14 2 5 <NA>
# 15 3 5 E
或者。。。将每一行放入一列
data.frame
后,使用“plyr”包中的rbind.fill
:
temp1 <- strsplit(temp$Product, "\\|")
library(plyr)
data.frame(Code = temp$Code,
rbind.fill(lapply(temp1, function(x) data.frame(t(x)))))
# Code X1 X2 X3 X4 X5
# 1 1 A B <NA> <NA> <NA>
# 2 2 A B C <NA> <NA>
# 3 3 A B C D E
您希望输出是宽格式还是长格式?宽格式的第一行是
A,B,NA,NA,NA
,长格式的第一行是1,1,A
和1,2,B
。宽格式是合适的,因为需要进行更多的转换。如果你能给我所需的代码和函数,那将非常有帮助。还有更多的要求吗?是否有代码可以避免不需要的单元格中出现NA?感谢所有的帮助。代码工作正常。是否有方法删除单元格中的NA?否。data.frame
的所有行必须具有相同的列数,因此每当单元格中没有输入值时,就会使用NA
。我建议改为使用列表,尝试strsplit(x$Product,\\\\\”)
@ananda-mahto,因为输出的格式很宽。是否可以更改功能,使输出处于长时间模式format@jayaram8569,您可以在附加步骤中执行此操作。假设您使用了concat.split
函数,并将输出存储为temp1
,您可以尝试:重塑(temp1,direction=“long”,idvar=“code”,variang=2:ncol(temp1),sep=“”)
。
temp1 <- strsplit(temp$Product, "\\|")
library(plyr)
data.frame(Code = temp$Code,
rbind.fill(lapply(temp1, function(x) data.frame(t(x)))))
# Code X1 X2 X3 X4 X5
# 1 1 A B <NA> <NA> <NA>
# 2 2 A B C <NA> <NA>
# 3 3 A B C D E
newcols <- max(sapply(strsplit(temp$Product, "\\|"), length))
temp2 <- data.frame(Code = temp$Code,
read.table(text = as.character(temp$Product),
sep="|", fill=TRUE,
col.names=paste("Product", seq(newcols))))
temp2
# Code Product.1 Product.2 Product.3 Product.4 Product.5
# 1 1 A B
# 2 2 A B C
# 3 3 A B C D E