R tm在应用tm_地图时丢失元数据

R tm在应用tm_地图时丢失元数据,r,metadata,tm,R,Metadata,Tm,我对tm r库有一个(小)问题。 假设我有一个语料库: # boilerplate bcorp <- c("one","two","three","four","five") myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US")) tdm <- TermDocumentMatrix(myCorpus) Docs(tdm) 这很有效。但是当我尝试使用转换tm_map()时: 本例中提出的解决方案是转换为明

我对tm r库有一个(小)问题。 假设我有一个语料库:

# boilerplate
bcorp <- c("one","two","three","four","five")
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
tdm <- TermDocumentMatrix(myCorpus)
Docs(tdm)
这很有效。但是当我尝试使用转换tm_map()时:

本例中提出的解决方案是转换为明文文档

# this works but erase the metadata
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, PlainTextDocument)
tdm <- TermDocumentMatrix(myCorpus)
Docs(tdm)
现在它可以工作了,但是删除所有元数据(在本例中是文档名)。有一种方法可以保存元数据,或者保存然后还原它们?

我找到了

该行:

myCorpus <- tm_map(myCorpus, PlainTextDocument)

myCorpus我自己也这么认为,但我在VectorSource()或Corpus()或tm_map()帮助文件中都没有找到它。调用
TermDocumentMatrix
,我在UseMethod(“meta”,x)”中得到了
错误:
我想知道当你在连续的作业中使用相同的名称
myCorpus
时,如果它可能更改了您的数据属性,因为这是一个属性检查函数
继承
谢谢Richard。我自己找到了一个解决方案。可能是重复的
Error: inherits(doc, "TextDocument") is not TRUE
# this works but erase the metadata
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, PlainTextDocument)
tdm <- TermDocumentMatrix(myCorpus)
Docs(tdm)
[1] "character(0)" "character(0)" "character(0)" "character(0)" "character(0)"
myCorpus <- tm_map(myCorpus, PlainTextDocument)
myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, content_transformer(tolower))