R 如何比较数据框中每个类别的文本文档

R 如何比较数据框中每个类别的文本文档,r,machine-learning,text-mining,word-frequency,R,Machine Learning,Text Mining,Word Frequency,我试图计算每个类别中文本中的术语,然后在数据框中比较类别之间的结果。 在我的数据框中有两列:IdName表示类别id,X表示文本字段。见附件。 当我将x放入语料库,规范化并创建tdm时,我丢失了IdName来确定这个术语属于哪个类别 docs欢迎访问SO:请编辑您的问题,以文本形式内联输入数据框。指向图像的链接可能会中断,也会使其他人更难解决您的问题。1)tdm与df的顺序相同,因此您可以将tdm的colname设置为df的rowname。你文章的第二部分不清楚。您想知道每个类别中哪个术语最常

我试图计算每个类别中文本中的术语,然后在数据框中比较类别之间的结果。 在我的数据框中有两列:IdName表示类别id,X表示文本字段。见附件。 当我将x放入语料库,规范化并创建tdm时,我丢失了IdName来确定这个术语属于哪个类别


docs欢迎访问SO:请编辑您的问题,以文本形式内联输入数据框。指向图像的链接可能会中断,也会使其他人更难解决您的问题。1)tdm与df的顺序相同,因此您可以将tdm的colname设置为df的rowname。你文章的第二部分不清楚。您想知道每个类别中哪个术语最常见,或者哪个类别中出现频率最高?@emilliman5我只是想知道每个类别中每个单词的频率,然后比较各个类别之间的结果。欢迎访问SO:请编辑您的问题,以内联文本形式输入数据框。指向图像的链接可能会中断,也会使其他人更难解决您的问题。1)tdm与df的顺序相同,因此您可以将tdm的colname设置为df的rowname。你文章的第二部分不清楚。你想知道每个类别中哪个词最常见,或者哪个类别中出现频率最高?@emilliman5我只是想知道每个类别中每个词的频率,然后比较不同类别的结果。
docs <- Corpus(VectorSource(data$x))

tdm <- TermDocumentMatrix(docs, control = list(bounds = list(global = c(1, Inf))))

term.freq <- rowSums(as.matrix(tdm))
df.tdm <- data.frame(term = names(term.freq), freq = term.freq)