删除R中的元数据

删除R中的元数据,r,text-mining,tm,R,Text Mining,Tm,我有一个由报纸专栏组成的语料库 library(tm) inspect(corpus8) [[69]] <<PlainTextDocument (metadata: 7)>> rec: 60 col: r3 ?investigate time, place, relationships and measurement concepts in < Aboriginal > and Torres Strait Islander contexts?. Add fa

我有一个由报纸专栏组成的语料库

library(tm)
inspect(corpus8)
[[69]]
<<PlainTextDocument (metadata: 7)>>
rec: 60  col: r3 ?investigate time, place, relationships and measurement concepts in < Aboriginal > and Torres Strait Islander contexts?. Add family breakdown, 

str(corpus8)
List of 71
 $ 1 :List of 2
  ..$ content: chr "rec: 7  col: r3 by dancing at a free concert and that dysfunction is fixed by changing the constitution to "
  ..$ meta   :List of 7
  .. ..$ author       : chr(0) 
  .. ..$ datetimestamp: POSIXlt[1:1], format: "2015-03-04 08:17:37"
  .. ..$ description  : chr(0) 
  .. ..$ heading      : chr(0) 
  .. ..$ id           : chr "1"
  .. ..$ language     : chr "en"
  .. ..$ origin       : chr(0) 
  .. ..- attr(*, "class")= chr "TextDocumentMeta"
  ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"

感谢您的帮助。

您是否尝试过,例如meta(语料库[[1]])非常感谢。不,我没有。我只是尝试了第一种选择。我不确定提示我添加的其他代码是什么。>元(语料库[[语料库]])哦!当你说元数据时,我把它作为技术术语元数据。是否要从文本集中删除某些单词?你应该使用这些方法删除停止词,并补充停止词列表(通常是“英语”,但有时用你自己的词扩展为“智能”。这是你的意图吗?我可以把它写在回答中。谢谢。如果我回到我原来的帖子(上面),显示应用于我的语料库的str和inspect命令的输出。一个天真的问题,这些结果是否从技术意义上建议元数据?BobI认为您想要的是从内容元素列表语料库中删除某些单词8。该列表中剩余的元项可能对您不重要,因此您可以将它们单独保留e、 你使用removeWords、stripWhitespace和RemoveNumber的方法是正确的。很多进行文本挖掘的人也会删除标点符号。顺便说一句,如果你创建一个向量并将其添加到removeWords中,你可以创建其他要删除的词。我是在帮你还是让你感到困惑?
rec: 6  col: r3