Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/maven/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Twitter 如何确定哪些词在情感分析中具有较高的预测能力?_Twitter_Nlp_Sentiment Analysis_Tf Idf_Feature Selection - Fatal编程技术网

Twitter 如何确定哪些词在情感分析中具有较高的预测能力?

Twitter 如何确定哪些词在情感分析中具有较高的预测能力?,twitter,nlp,sentiment-analysis,tf-idf,feature-selection,Twitter,Nlp,Sentiment Analysis,Tf Idf,Feature Selection,我正在研究推特数据的分类问题。用户标记的tweet(相关、不相关)用于训练机器学习分类器,以预测未看到的tweet是否与用户相关 我使用一种简单的预处理技术,如去除停止词、词干等,并使用sklearn TFIDF矢量器将单词转换为数字,然后将其输入分类器,例如SVM、内核SVM、天真贝叶斯 我想确定哪些词(特征)具有更高的预测能力。最好的方法是什么 我试过wordcloud,但它只显示了样本中频率最高的单词 更新: 以下方法以及SKU选择似乎为我的问题提供了迄今为止最好的答案: 还有其他建议吗?

我正在研究推特数据的分类问题。用户标记的tweet(相关、不相关)用于训练机器学习分类器,以预测未看到的tweet是否与用户相关

我使用一种简单的预处理技术,如去除停止词、词干等,并使用sklearn TFIDF矢量器将单词转换为数字,然后将其输入分类器,例如SVM、内核SVM、天真贝叶斯

我想确定哪些词(特征)具有更高的预测能力。最好的方法是什么

我试过wordcloud,但它只显示了样本中频率最高的单词

更新:

以下方法以及SKU选择似乎为我的问题提供了迄今为止最好的答案:


还有其他建议吗?

您是否尝试过使用tfidf?它创建一个加权矩阵,为每个文本中语义意义更大的单词提供更大的权重。它将单个文本(在本例中为tweet)与所有文本(所有tweet)进行比较。它比在分类和其他任务中使用原始术语计数更有帮助