R字频中的文本分析_R_Text - Fatal编程技术网

R字频中的文本分析

r text

R字频中的文本分析,r,text,R,Text,我的工作中只有R可用，我以前用Python做过。我需要在CSV文件中获得每组事件的计数。我用Python做了一个情绪分析，Python在一个提供了每个短语计数的表中搜索了一个字典。我正在研究如何在R中做到这一点，并且只找到了使用预定频率进行一般单词计数的方法如果有人有任何关于如何在R中执行此操作的资源链接，请告诉我。谢谢：）这里是一个开始：库（tidytext）文本_df%>% unnest_标记（单词、文本）图书馆（tidytext）整理书籍% unnest_标记（单词、文本）整理

我的工作中只有R可用，我以前用Python做过。我需要在CSV文件中获得每组事件的计数。我用Python做了一个情绪分析，Python在一个提供了每个短语计数的表中搜索了一个字典。我正在研究如何在R中做到这一点，并且只找到了使用预定频率进行一般单词计数的方法

如果有人有任何关于如何在R中执行此操作的资源链接，请告诉我。谢谢：）

这里是一个开始：

库（tidytext）
文本_df%>%
unnest_标记（单词、文本）
图书馆（tidytext）
整理书籍%
unnest_标记（单词、文本）
整理书籍
整洁的书籍%>%
计数（字，排序=真）

tidytext软件包是一个很好的解决方案。另一个选项是使用文本挖掘包

tm

：

library(tm)
df<-read.csv(myfile)

corpus<-Corpus(VectorSource(df$text))
corpus<-tm_map(corpus, content_transformer(tolower))
corpus<-tm_map(corpus, removeNumbers)
corpus<-tm_map(corpus, removeWords, stopwords('english'))
#corpus<-tm_map(corpus, stemDocument, language = "english") 
corpus<-tm_map(corpus, removePunctuation)

tdm<-TermDocumentMatrix(corpus)

tdmatrix<-as.matrix(tdm)
wordfreq<-sort(rowSums(tdmatrix), decreasing = TRUE)

library（tm）
欢迎登机。请添加一部分您的数据，以便我们可以一瞥
library(tm)
df<-read.csv(myfile)

corpus<-Corpus(VectorSource(df$text))
corpus<-tm_map(corpus, content_transformer(tolower))
corpus<-tm_map(corpus, removeNumbers)
corpus<-tm_map(corpus, removeWords, stopwords('english'))
#corpus<-tm_map(corpus, stemDocument, language = "english") 
corpus<-tm_map(corpus, removePunctuation)

tdm<-TermDocumentMatrix(corpus)

tdmatrix<-as.matrix(tdm)
wordfreq<-sort(rowSums(tdmatrix), decreasing = TRUE)