Twitter 如何确定哪些词在情感分析中具有较高的预测能力？_Twitter_Nlp_Sentiment Analysis_Tf Idf_Feature Selection

Twitter 如何确定哪些词在情感分析中具有较高的预测能力？

twitter nlp

Twitter 如何确定哪些词在情感分析中具有较高的预测能力？,twitter,nlp,sentiment-analysis,tf-idf,feature-selection,Twitter,Nlp,Sentiment Analysis,Tf Idf,Feature Selection,我正在研究推特数据的分类问题。用户标记的tweet（相关、不相关）用于训练机器学习分类器，以预测未看到的tweet是否与用户相关我使用一种简单的预处理技术，如去除停止词、词干等，并使用sklearn TFIDF矢量器将单词转换为数字，然后将其输入分类器，例如SVM、内核SVM、天真贝叶斯我想确定哪些词（特征）具有更高的预测能力。最好的方法是什么我试过wordcloud，但它只显示了样本中频率最高的单词更新：以下方法以及SKU选择似乎为我的问题提供了迄今为止最好的答案：还有其他建议吗？

我正在研究推特数据的分类问题。用户标记的tweet（相关、不相关）用于训练机器学习分类器，以预测未看到的tweet是否与用户相关

我使用一种简单的预处理技术，如去除停止词、词干等，并使用sklearn TFIDF矢量器将单词转换为数字，然后将其输入分类器，例如SVM、内核SVM、天真贝叶斯

我想确定哪些词（特征）具有更高的预测能力。最好的方法是什么

我试过wordcloud，但它只显示了样本中频率最高的单词

更新：

以下方法以及SKU选择似乎为我的问题提供了迄今为止最好的答案：

还有其他建议吗？

您是否尝试过使用tfidf？它创建一个加权矩阵，为每个文本中语义意义更大的单词提供更大的权重。它将单个文本（在本例中为tweet）与所有文本（所有tweet）进行比较。它比在分类和其他任务中使用原始术语计数更有帮助