R 使用quanteda分类器识别不同的关键字_R_Machine Learning_Text_Naivebayes_Quanteda

R 使用quanteda分类器识别不同的关键字

r machine-learning text

R 使用quanteda分类器识别不同的关键字,r,machine-learning,text,naivebayes,quanteda,R,Machine Learning,Text,Naivebayes,Quanteda,我是定量文本分析的新手，我正在尝试从朴素贝叶斯分类器的输出中提取与特定分类类别相关的关键字。我正在运行下面的示例（将电影评论分为正面或负面）。我想要两个向量，每个向量都包含那些分别与正类和负类相关的关键字。我说我应该关注summary（）输出中的“估计特征分数”对吗？如果是，我该如何解释这些 require(quanteda) require(quanteda.textmodels) require(caret) corp_movies <- data_corpus_movierevie

我是定量文本分析的新手，我正在尝试从朴素贝叶斯分类器的输出中提取与特定分类类别相关的关键字。我正在运行下面的示例（将电影评论分为正面或负面）。我想要两个向量，每个向量都包含那些分别与正类和负类相关的关键字。我说我应该关注summary（）输出中的“估计特征分数”对吗？如果是，我该如何解释这些

require(quanteda)
require(quanteda.textmodels)
require(caret)

corp_movies <- data_corpus_moviereviews
summary(corp_movies, 5)

# generate 1500 numbers without replacement
set.seed(300)
id_train <- sample(1:2000, 1500, replace = FALSE)
head(id_train, 10)

# create docvar with ID
corp_movies$id_numeric <- 1:ndoc(corp_movies)

# get training set
dfmat_training <- corpus_subset(corp_movies, id_numeric %in% id_train) %>%
  dfm(remove = stopwords("english"), stem = TRUE)

# get test set (documents not in id_train)
dfmat_test <- corpus_subset(corp_movies, !id_numeric %in% id_train) %>%
  dfm(remove = stopwords("english"), stem = TRUE)

tmod_nb <- textmodel_nb(dfmat_training, dfmat_training$sentiment)
summary(tmod_nb)

require（quanteda）
require（quanteda.textmodels）
需要（插入符号）
CoppTimes 如果你只想知道最消极和积极的单词，请考虑从整个语料库创建的DFM上的TestStaskKyNess（/>代码>），划分为正面和负面评论。这不会创建两个词向量，而是一个单独的词向量，其分数表示与否定或肯定类别的关联强度
library（“quanteda”，warn.conflications=FALSE）
##软件包版本：2.1.1
##并行计算：使用12个线程中的2个。
##看https://quanteda.io 有关教程和示例。
数据（“数据语料库电影评论”，package=“quanteda.textmodels”）
如果你只想知道最消极和积极的单词，请考虑从整个语料库创建的DFM上的“代码> TestStaskKyNess（）/Cube），划分为正面和负面评论。这不会创建两个词向量，而是一个单独的词向量，其分数表示与否定或肯定类别的关联强度
library（“quanteda”，warn.conflications=FALSE）
##软件包版本：2.1.1
##并行计算：使用12个线程中的2个。
##看https://quanteda.io 有关教程和示例。
数据（“数据语料库电影评论”，package=“quanteda.textmodels”）
dfmat