String R中的字符串到字向量

String R中的字符串到字向量,string,r,text-mining,tm,String,R,Text Mining,Tm,我的数据集中有40行和3个属性列。每行都是一个单独的文本文档。我使用library(tm)的TermdocumentMatrix()函数将字符串转换为单独的术语。但该函数将属性列的数量视为文档的数量。为什么会这样?我是不是搞错了 R中是否有类似于weka的StringToWordVector过滤器的属性过滤器?我希望结果与weka的StringToWordVector过滤器相同 示例如下所示: Title, Author, BookSummary The Da Vinci Code, Dan

我的数据集中有40行和3个属性列。每行都是一个单独的文本文档。我使用
library(tm)
TermdocumentMatrix()
函数将字符串转换为单独的术语。但该函数将属性列的数量视为文档的数量。为什么会这样?我是不是搞错了

R中是否有类似于weka的
StringToWordVector
过滤器的属性过滤器?我希望结果与weka的
StringToWordVector
过滤器相同

示例如下所示:

Title, Author, BookSummary

The Da Vinci Code, Dan Brown, Louvre curator and Priory of Sion Grand Master Jacques<br>
标题、作者、书籍摘要
达芬奇密码,丹布朗,卢浮宫馆长和锡安大师雅克修道院
此示例仅显示一行

我尝试了以下代码:-

data<-read.csv("C:/Users/admin/Desktop/RTextMining/dataset.csv")
corpus.tmp<-Corpus(VectorSource(data))
View(corpus.tmp)

corpus.tmp<- tm_map(corpus.tmp,removePunctuation)  
corpus.tmp<- tm_map(corpus.tmp, stripWhitespace)
corpus.tmp<- tm_map(corpus.tmp, tolower)
corpus.tmp<- tm_map(corpus.tmp, removeWords, stopwords("english"))

library(SnowballC)
corpus.tmp <- tm_map(corpus.tmp, stemDocument)

TDM <- TermDocumentMatrix(corpus.tmp)

dataWhere是可复制的示例?当我们不知道数据是什么样子(选择3行)或您正在尝试的代码时,很难提供帮助。您可以尝试
qdap
?bag_o______________________________________________?我不熟悉weka。@RichardScriven除了上面的代码之外,我还应用了weightTfIdf()函数。因此,预期结果应该是:-coulmns的数量=术语的数量,行的数量=文档的数量。每个单元格中的值=相应文档中每个术语的频率。