R 如何比较数据框中每个类别的文本文档_R_Machine Learning_Text Mining_Word Frequency

R 如何比较数据框中每个类别的文本文档

r machine-learning

R 如何比较数据框中每个类别的文本文档,r,machine-learning,text-mining,word-frequency,R,Machine Learning,Text Mining,Word Frequency,我试图计算每个类别中文本中的术语，然后在数据框中比较类别之间的结果。在我的数据框中有两列：IdName表示类别id，X表示文本字段。见附件。当我将x放入语料库，规范化并创建tdm时，我丢失了IdName来确定这个术语属于哪个类别 docs欢迎访问SO：请编辑您的问题，以文本形式内联输入数据框。指向图像的链接可能会中断，也会使其他人更难解决您的问题。1）tdm与df的顺序相同，因此您可以将tdm的colname设置为df的rowname。你文章的第二部分不清楚。您想知道每个类别中哪个术语最常

我试图计算每个类别中文本中的术语，然后在数据框中比较类别之间的结果。在我的数据框中有两列：IdName表示类别id，X表示文本字段。见附件。当我将x放入语料库，规范化并创建tdm时，我丢失了IdName来确定这个术语属于哪个类别

docs欢迎访问SO：请编辑您的问题，以文本形式内联输入数据框。指向图像的链接可能会中断，也会使其他人更难解决您的问题。1）tdm与df的顺序相同，因此您可以将tdm的colname设置为df的rowname。你文章的第二部分不清楚。您想知道每个类别中哪个术语最常见，或者哪个类别中出现频率最高？@emilliman5我只是想知道每个类别中每个单词的频率，然后比较各个类别之间的结果。欢迎访问SO：请编辑您的问题，以内联文本形式输入数据框。指向图像的链接可能会中断，也会使其他人更难解决您的问题。1）tdm与df的顺序相同，因此您可以将tdm的colname设置为df的rowname。你文章的第二部分不清楚。你想知道每个类别中哪个词最常见，或者哪个类别中出现频率最高？@emilliman5我只是想知道每个类别中每个词的频率，然后比较不同类别的结果。
docs <- Corpus(VectorSource(data$x))

tdm <- TermDocumentMatrix(docs, control = list(bounds = list(global = c(1, Inf))))

term.freq <- rowSums(as.matrix(tdm))
df.tdm <- data.frame(term = names(term.freq), freq = term.freq)