使用dplyr筛选包含部分列字符串的行
假设我有一个像使用dplyr筛选包含部分列字符串的行,r,filter,dplyr,mutate,summarize,R,Filter,Dplyr,Mutate,Summarize,假设我有一个像 term cnt apple 10 apples 5 a apple on 3 blue pears 3 pears 1 如何筛选此列中所有部分找到的字符串,例如获取结果 term cnt apple 10 pears 1 不指明要过滤哪些术语,而是通过自引用的方式,即,它会根据整列检查每个术语,并删除部分匹配的术语。令牌的数量不受限制,字符串的一致性(即mapples)也不会被apple匹配。这将导致基于dplyr
term cnt
apple 10
apples 5
a apple on 3
blue pears 3
pears 1
如何筛选此列中所有部分找到的字符串,例如获取结果
term cnt
apple 10
pears 1
不指明要过滤哪些术语,而是通过自引用的方式,即,它会根据整列检查每个术语,并删除部分匹配的术语。令牌的数量不受限制,字符串的一致性(即mapples)也不会被apple匹配。这将导致基于dplyr的反向广义版本
d[grep("^apple$|^pears$", d$term), ]
此外,使用这种分离来获得累计金额会很有趣,例如
term cnt
apple 18
pears 4
我无法让它与contains或grep一起工作
谢谢您可以尝试使用tidyverse之类的工具
1. define a list of the words as:
k <- dft %>%
select(term) %>%
unlist() %>%
unique()
2. operate on the data as:
dft %>%
separate(term, c('t1', 't2')) %>%
rowwise() %>%
mutate( g = sum(t1 %in% k)) %>%
filter( g > 0) %>%
select(t1, cnt)
其中:
t1 cnt
<chr> <int>
1 apple 10
2 apples 5
3 pears 1
这仍然不能处理苹果和苹果。我会继续尝试的。希望能找到完整的答案。不像Pythonista所说的那么地道,但有人可以建议对此进行改进:
> ssss <- data.frame(c('apple','red apple','apples','pears','blue pears'),c(15,3,10,4,3))
>
> names(ssss) <- c('Fruit','Count')
>
> ssss
Fruit Count
1 apple 15
2 red apple 3
3 apples 10
4 pears 4
5 blue pears 3
>
> root_list <- as.vector(ssss$Fruit[unlist(lapply(ssss$Fruit,function(x){length(grep(x,ssss$Fruit))>1}))])
>
>
> ssss %>% filter(ssss$Fruit %in% root_list)
Fruit Count
1 apple 15
2 pears 4
>
> data <- data.frame(lapply(root_list, function(x){y <- stringr::str_extract(ssss$Fruit,x); ifelse(is.na(y),'',y)}))
>
> cols <- colnames(data)
>
> #data$x <- do.call(paste0, c(data[cols]))
> #for (co in cols) data[co] <- NULL
>
> ssss$Fruit <- do.call(paste0, c(data[cols]))
>
> ssss %>% group_by(Fruit) %>% summarise(val = sum(Count))
# A tibble: 2 x 2
Fruit val
<chr> <dbl>
1 apple 28
2 pears 7
>
试试这个:
df=data.frame(term=c('apple','apples','a apple on','blue pears','pears'),cnt=c(10,5,3,3,1))
matches = sapply(df$term,function(t,terms){grepl(pattern = t,x = terms)},df$term)
sapply(1:ncol(matches),function(t,mat){
tempmat = mat[,t]&mat[,-t]
indices=unlist(apply(tempmat,MARGIN = 2,which))
df$term[indices]<<-df$term[t]
},matches)
df%>%group_by(term)%>%summarize(cnt=sum(cnt))
# A tibble: 2 x 2
# term cnt
# <chr> <dbl>
#1 apple 18
#2 pears 4
嗨,谢谢你的主意。然而,术语并不限于两个代币,还可能更多。我澄清了上面的例子。请检查更新的答案@Karsten Sender你尝试过我的解决方案吗?嗨,谢谢你的帖子,很抱歉耽搁了。我确实看到了你的方法,它适用于样本数据;然而,当应用于实际数据集read:about 10k terms时,它会表现出奇怪的行为,例如,将列名从apple复制到applesapplered apple,并且内存和运行时需求的指数级增长无法使其可行。我会接受你的回答,但需要找到一个不同的方式来让这项工作。谢谢。很抱歉,如果你能分享它不能正常工作的情况,我们可以尝试概括代码!嗨,谢谢你的主意,很抱歉耽搁了。请参阅我上面的评论,这也适用于您的解决方案。谢谢。@KarstenSender帮不上忙,除非您共享一个更大的数据样本来处理和调试。