R 删除语料库中具有特定单词的行_R_Tm_Corpus

R 删除语料库中具有特定单词的行

R 删除语料库中具有特定单词的行,r,tm,corpus,R,Tm,Corpus,我有一个语料库，里面有从互联网上搜集的多篇文本（新闻文章）一些文本包含文章中使用的照片的描述。我想把它去掉我找到了一个关于此主题的现有字符串，但它无法帮助我。见链接：我想删除包含单词“PHOTO FILE”（大写）的每一行。此解决方案发布于： require(tm) corp <- VCorpus(VectorSource(txt)) textVector <- sapply(corp, as.character) for(j in seq(textVector)) { new

我有一个语料库，里面有从互联网上搜集的多篇文本（新闻文章）

一些文本包含文章中使用的照片的描述。我想把它去掉

我找到了一个关于此主题的现有字符串，但它无法帮助我。见链接：

我想删除包含单词“PHOTO FILE”（大写）的每一行。此解决方案发布于：

require(tm)
corp <- VCorpus(VectorSource(txt))
textVector <- sapply(corp, as.character)
for(j in seq(textVector)) {
newCorp<-textVector
newCorp[[j]] <- textVector[[j]][-grep("PHOTO",    textVector[[j]], ignore.case = FALSE)]
}

require（tm）
corp假设最初文本包含在文件input.txt中。
原始文件如下所示：
THis is a text that contains a lot
of information
and PHOTO FILE.
Great!


my_text<-readLines("input.txt")

[1] "THis is a text that contains a lot" "of information"                     "and PHOTO FILE."                    "Great!"                            

你最终得到的是
[1] "THis is a text that contains a lot" "of information"                     "Great!"                            

您能添加一些您希望处理的文本吗？请参阅原始问题假设您有一个包含初始信息的input.txt
文件。然后通过readLines（“input.txt”）
导入它，并在该文件中最初执行“文件照片”的grep？作为旁注，您可以始终覆盖初始文件：）我使用getURL抓取文本，然后使用Boilerpipe包中的ArticleSentencesExtractor。然后我制作了一个.txt文件，并使用这些.txt文件创建了我的语料库。我可以用你的例子来复制这个，但是我如何在整个语料库中执行这个呢？例如：如何在我的原始代码中对textVector执行此操作。这似乎不起作用。在这一点上，corp
blah[-grep("PHOTO FILE",blah,value = F,perl=T)]  

[1] "THis is a text that contains a lot" "of information"                     "Great!"