基于R中的数据帧内容构建索引表
我有一个数据帧a,格式如下:基于R中的数据帧内容构建索引表,r,data-binding,R,Data Binding,我有一个数据帧a,格式如下: user item 101 1 101 2 101 4 102 2 103 3 103 4 ... ... 我想创建两个数据帧B和C user itemList 101 c(1,2,4) 102 c(2) 103 c(3,4) item userList 1 c(101) 2 c(101,102) 3 c(103) 4 c(101,103) 您可以为此
user item
101 1
101 2
101 4
102 2
103 3
103 4
... ...
我想创建两个数据帧B和C
user itemList
101 c(1,2,4)
102 c(2)
103 c(3,4)
item userList
1 c(101)
2 c(101,102)
3 c(103)
4 c(101,103)
您可以为此使用dplyr包
library(dplyr)
user.grp <- df %.%
group_by(user) %.%
summarise(itemList=paste(item,collapse=','))
#output
user.grp
# user itemList
#1 101 1,2,4
#2 102 2
#3 103 3,4
您能否澄清您希望
itemList
包含的内容?包含多个元素的向量,还是逗号分隔的字符串?而且,这个问题似乎与你的问题非常相似。你有没有尝试过他们的解决方案中所建议的方法?以下内容将生成可能用于此目的的列表:tapply(d$item,d$user,c);tapply(d$user,d$item,c)
@jbaums,如果我使用您的解决方案,如何找到item的userList长度,比如item 1和item 2?现在,对于这两种情况,您的解决方案都返回1。谢谢不管怎样,我想我可以使用@chit的解决方案您可以使用sapply(tapply(d$user,d$item,c),length)
返回一个向量,给出每个项目对应的用户数,并sapply(tapply(d$item,d$user,c),length)
返回每个用户的项目数。谢谢。在这种情况下,如何从Item2 userList中提取102?请注意,itemList
现在是一个字符串向量,项目之间用逗号分隔,而不是像问题中暗示的那样,itemList
的每个元素都是项目向量。然后,在这种情况下,我们需要将分组数据存储在一个列表中是的,正如我在评论这个问题时提到的。
library(plyr)
dlply(df,.(user),function(df){df$item})
#output
#$`101`
#[1] 1 2 4
#$`102`
#[1] 2
#$`103`
#[1] 3 4