R-替换数据帧中的重复元素
我有一个名为tweets的数据集,如下所示:R-替换数据帧中的重复元素,r,database,replace,R,Database,Replace,我有一个名为tweets的数据集,如下所示: V1 V2 V3 1 pos text1 text4 2 neg text2 text1 3 neu text3 text5 V1 V2 V3 1 pos NA text4 2 neg text2 text1
V1 V2 V3
1 pos text1 text4
2 neg text2 text1
3 neu text3 text5
V1 V2 V3
1 pos NA text4
2 neg text2 text1
3 neu text3 text5
在V2中有3424个OB,而在V3中有1000个OB。这些OB是从.txt文件导入的tweet。
我想要的是这样的东西:
V1 V2 V3
1 pos text1 text4
2 neg text2 text1
3 neu text3 text5
V1 V2 V3
1 pos NA text4
2 neg text2 text1
3 neu text3 text5
因此,如果V2中的元素与V3中的元素相同,则V2中的元素必须替换为NA
我尝试使用以下代码:
x <- "N/A"
for(i in 1:1000){
for(l in 1:3424){
if(full_corpus[i,3] == (full_corpus[l,2])){
replace(full_corpus,l,x)
}}}
我该怎么做?
很抱歉,我在大学的这一年开始使用R和编码,在这个领域我仍然有很多困难
我也试过:
library(dplyr)
df %>% mutate(textA = ifelse(textA %in% textB, NA, textA) )
但它不起作用。我明白了
This application has requested the Runtime to terminate it in an unusual way. Please contact the application's support team for more information
和R崩溃。我试图重新安装dplyr包,但结果相同
提前感谢你的帮助 试试这个:
df[which(df$V2 %in% df$V3),]$V2 <- NA
df[which(df$V2%在%df$V3中),]$V2试试这个:
df[which(df$V2 %in% df$V3),]$V2 <- NA
df[which(df$V2%在%df$V3中),]$V2由于您在文章中提供的第一个错误。
我假设在读取数据时,R将V2
和V3
转换为因子。
这是获得错误的方法。因为NA
不是此因素中的级别
但多亏了factors
Live,生活变得简单了一些:
您可以比较V2
和V3
的levels
,并将levels
与NA
一起删除,这两个向量都会出现,因此您不需要循环整个数据
因此,由于您在帖子中提供的第一个错误,重复了。
我假设在读取数据时,R将V2
和V3
转换为因子。
这是获得错误的方法。因为NA
不是此因素中的级别
但多亏了factors
Live,生活变得简单了一些:
您可以比较V2
和V3
的levels
,并将levels
与NA
一起删除,这两个向量都会出现,因此您不需要循环整个数据
所以<代码>重复