R-替换数据帧中的重复元素_R_Database_Replace

R-替换数据帧中的重复元素

r database replace

R-替换数据帧中的重复元素,r,database,replace,R,Database,Replace,我有一个名为tweets的数据集，如下所示： V1 V2 V3 1 pos text1 text4 2 neg text2 text1 3 neu text3 text5 V1 V2 V3 1 pos NA text4 2 neg text2 text1

我有一个名为tweets的数据集，如下所示：

     V1        V2         V3  

1    pos       text1      text4

2    neg       text2      text1

3    neu       text3      text5

     V1        V2         V3  

1    pos          NA      text4

2    neg       text2      text1

3    neu       text3      text5

在V2中有3424个OB，而在V3中有1000个OB。这些OB是从.txt文件导入的tweet。我想要的是这样的东西：

     V1        V2         V3  

1    pos       text1      text4

2    neg       text2      text1

3    neu       text3      text5

     V1        V2         V3  

1    pos          NA      text4

2    neg       text2      text1

3    neu       text3      text5

因此，如果V2中的元素与V3中的元素相同，则V2中的元素必须替换为NA

我尝试使用以下代码：

x <- "N/A" 
for(i in 1:1000){ 
  for(l in 1:3424){
    if(full_corpus[i,3] == (full_corpus[l,2])){
    replace(full_corpus,l,x)
}}}

我该怎么做？很抱歉，我在大学的这一年开始使用R和编码，在这个领域我仍然有很多困难

我也试过：

library(dplyr)
df %>% mutate(textA = ifelse(textA %in% textB, NA, textA) )

但它不起作用。我明白了

This application has requested the Runtime to terminate it in an unusual way. Please contact the application's support team for more information

和R崩溃。我试图重新安装dplyr包，但结果相同

提前感谢你的帮助

试试这个：

df[which(df$V2 %in% df$V3),]$V2 <- NA

df[which（df$V2%在%df$V3中），]$V2试试这个：
df[which(df$V2 %in% df$V3),]$V2 <- NA

df[which（df$V2%在%df$V3中），]$V2由于您在文章中提供的第一个错误。
我假设在读取数据时，R将V2
和V3
转换为因子。
这是获得错误的方法。因为NA
不是此因素中的级别

但多亏了factorsLive，生活变得简单了一些：
您可以比较V2
和V3
的levels
，并将levels
与NA
一起删除，这两个向量都会出现，因此您不需要循环整个数据
因此，由于您在帖子中提供的第一个错误，重复了。
我假设在读取数据时，R将V2
和V3
转换为因子。
这是获得错误的方法。因为NA
不是此因素中的级别

但多亏了factorsLive，生活变得简单了一些：
您可以比较V2
和V3
的levels
，并将levels
与NA
一起删除，这两个向量都会出现，因此您不需要循环整个数据
所以<代码>重复