R 删除语料库中具有特定单词的行

R 删除语料库中具有特定单词的行,r,tm,corpus,R,Tm,Corpus,我有一个语料库,里面有从互联网上搜集的多篇文本(新闻文章) 一些文本包含文章中使用的照片的描述。我想把它去掉 我找到了一个关于此主题的现有字符串,但它无法帮助我。见链接: 我想删除包含单词“PHOTO FILE”(大写)的每一行。此解决方案发布于: require(tm) corp <- VCorpus(VectorSource(txt)) textVector <- sapply(corp, as.character) for(j in seq(textVector)) { new

我有一个语料库,里面有从互联网上搜集的多篇文本(新闻文章)

一些文本包含文章中使用的照片的描述。我想把它去掉

我找到了一个关于此主题的现有字符串,但它无法帮助我。见链接:

我想删除包含单词“PHOTO FILE”(大写)的每一行。此解决方案发布于:

require(tm)
corp <- VCorpus(VectorSource(txt))
textVector <- sapply(corp, as.character)
for(j in seq(textVector)) {
newCorp<-textVector
newCorp[[j]] <- textVector[[j]][-grep("PHOTO",    textVector[[j]], ignore.case = FALSE)]
}
require(tm)

corp假设最初文本包含在文件
input.txt
中。 原始文件如下所示:

THis is a text that contains a lot
of information
and PHOTO FILE.
Great!


my_text<-readLines("input.txt")

[1] "THis is a text that contains a lot" "of information"                     "and PHOTO FILE."                    "Great!"                            
你最终得到的是

[1] "THis is a text that contains a lot" "of information"                     "Great!"                            

您能添加一些您希望处理的文本吗?请参阅原始问题假设您有一个包含初始信息的
input.txt
文件。然后通过
readLines(“input.txt”)
导入它,并在该文件中最初执行“文件照片”的grep?作为旁注,您可以始终覆盖初始文件:)我使用getURL抓取文本,然后使用Boilerpipe包中的ArticleSentencesExtractor。然后我制作了一个.txt文件,并使用这些.txt文件创建了我的语料库。我可以用你的例子来复制这个,但是我如何在整个语料库中执行这个呢?例如:如何在我的原始代码中对textVector执行此操作。这似乎不起作用。在这一点上,
corp
blah[-grep("PHOTO FILE",blah,value = F,perl=T)]  
[1] "THis is a text that contains a lot" "of information"                     "Great!"