使用dplyr在最终结果中不可见连接的列
我是R的新手,我有以下代码,可以使用dplyr对R中的电影镜头数据集进行聚合使用dplyr在最终结果中不可见连接的列,r,dplyr,inner-join,R,Dplyr,Inner Join,我是R的新手,我有以下代码,可以使用dplyr对R中的电影镜头数据集进行聚合 joined_data <- inner_join(ratings_data,movie_data,by="movie_id",copy=TRUE) data <- joined_data %>% group_by(movie_id) %>% arrange(movie_id) data1 <- data %>% select(movie_id,movie_title,rati
joined_data <- inner_join(ratings_data,movie_data,by="movie_id",copy=TRUE)
data <- joined_data %>% group_by(movie_id) %>% arrange(movie_id)
data1 <- data %>% select(movie_id,movie_title,rating) %>% summarize(count_ratings=n())
但当我这么做的时候:
data1 <- data %>% select(movie_id,movie_title,user_id,rating) %>% summarize(count_users=n(),count_ratings=n())
第二行的分组人(电影id)对此负责。你可以使用:
group_by(movie_id, movie_title)
再次检查-这是@AntoniosK所建议的,我们需要查看一些数据,以了解您在哪里丢失了该列。另外,您确定在第一行代码中确实需要
copy=TRUE
?使用分组依据(电影id)%%>%排列(电影id)
,您实现了什么?为什么不安排呢?如果在初始表(收视率数据和电影数据)中都有电影标题,则加入R会在名称movie\u title.x和movie\u title.y后面加上结尾。这可能是一个原因,为什么您在没有结束的情况下无法找到电影标题。两个表都没有“电影标题”。连接是基于“movie_id”@AntoniosK完成的,我需要group by稍后总结收视率,当我尝试总结并将结果写入另一个数据帧时,我将丢失列。@AntoniosK,谢谢,我通常尝试通过管道传输代码,但这让我感到困惑!!谢谢你的帮助:)
[1] "movie_id" "count_users" "count_ratings"
group_by(movie_id, movie_title)