R字频中的文本分析

R字频中的文本分析,r,text,R,Text,我的工作中只有R可用,我以前用Python做过。我需要在CSV文件中获得每组事件的计数。我用Python做了一个情绪分析,Python在一个提供了每个短语计数的表中搜索了一个字典。我正在研究如何在R中做到这一点,并且只找到了使用预定频率进行一般单词计数的方法 如果有人有任何关于如何在R中执行此操作的资源链接,请告诉我。谢谢:)这里是一个开始: 库(tidytext) 文本_df%>% unnest_标记(单词、文本) 图书馆(tidytext) 整理书籍% unnest_标记(单词、文本) 整理

我的工作中只有R可用,我以前用Python做过。我需要在CSV文件中获得每组事件的计数。我用Python做了一个情绪分析,Python在一个提供了每个短语计数的表中搜索了一个字典。我正在研究如何在R中做到这一点,并且只找到了使用预定频率进行一般单词计数的方法

如果有人有任何关于如何在R中执行此操作的资源链接,请告诉我。谢谢:)

这里是一个开始:

库(tidytext)
文本_df%>%
unnest_标记(单词、文本)
图书馆(tidytext)
整理书籍%
unnest_标记(单词、文本)
整理书籍
整洁的书籍%>%
计数(字,排序=真)

tidytext软件包是一个很好的解决方案。另一个选项是使用文本挖掘包
tm

library(tm)
df<-read.csv(myfile)

corpus<-Corpus(VectorSource(df$text))
corpus<-tm_map(corpus, content_transformer(tolower))
corpus<-tm_map(corpus, removeNumbers)
corpus<-tm_map(corpus, removeWords, stopwords('english'))
#corpus<-tm_map(corpus, stemDocument, language = "english") 
corpus<-tm_map(corpus, removePunctuation)

tdm<-TermDocumentMatrix(corpus)

tdmatrix<-as.matrix(tdm)
wordfreq<-sort(rowSums(tdmatrix), decreasing = TRUE)
library(tm)

欢迎登机。请添加一部分您的数据,以便我们可以一瞥
library(tm)
df<-read.csv(myfile)

corpus<-Corpus(VectorSource(df$text))
corpus<-tm_map(corpus, content_transformer(tolower))
corpus<-tm_map(corpus, removeNumbers)
corpus<-tm_map(corpus, removeWords, stopwords('english'))
#corpus<-tm_map(corpus, stemDocument, language = "english") 
corpus<-tm_map(corpus, removePunctuation)

tdm<-TermDocumentMatrix(corpus)

tdmatrix<-as.matrix(tdm)
wordfreq<-sort(rowSums(tdmatrix), decreasing = TRUE)