Facebook 基于朴素贝叶斯的情感分析

Facebook 基于朴素贝叶斯的情感分析,facebook,twitter,machine-learning,mahout,sentiment-analysis,Facebook,Twitter,Machine Learning,Mahout,Sentiment Analysis,我正在研究问题解决方案,从twitter和Facebook上收集社交信息,用于产品X。我用五种标签给这些帖子、评论或推文贴标签 --Positive --Negative --Campaign --Reply --Queries 我有一套大约5000人的培训,其中包括推特、Facebook帖子和评论。 但是这些训练集是不平衡的,并且有更多的负面因素和竞选数据。以下是情感清单及其计数: --Positive--> 492 --Negative--> 2193 --Campaign

我正在研究问题解决方案,从twitter和Facebook上收集社交信息,用于产品X。我用五种标签给这些帖子、评论或推文贴标签

--Positive
--Negative
--Campaign 
--Reply
--Queries 
我有一套大约5000人的培训,其中包括推特、Facebook帖子和评论。 但是这些训练集是不平衡的,并且有更多的负面因素和竞选数据。以下是情感清单及其计数:

--Positive--> 492
--Negative--> 2193
--Campaign--> 1422
--Reply--> 430
--Queries--> 922
我用朴素贝叶斯来预测这些情绪。正如你所看到的,上面的训练集是高度不平衡的,我有没有办法用这些训练集来改进我的模型。 任何改进我的预测模型的建议都会有帮助

我用Mahout来建立这个预测模型


谢谢你

你试过忽略班级平衡的简单方法吗?不管怎么说,这对天真的Bayes来说并不重要(先验知识被可能性术语淹没了,请看David Hand的《白痴Bayes:到底没那么愚蠢?》)。你知道仅仅按原样使用数据是行不通的吗?@BenAllison我知道!我已经把它们转换成向量。我的意思是,只需要将所有的特征向量与当前的类平衡起来,应用朴素贝叶斯,而不需要重新平衡。至少在朴素贝叶斯(NaiveBayes)中,它应该可以很好地工作,原因在我链接的论文中概述。只有当它不能很好地工作时,你才应该尝试改变——最小的类别有430个例子,这应该足够了。让我们看看你可能还想尝试逻辑回归和支持向量机。对于此类分类问题,它们的性能优于NB。对于不平衡数据,正则化应该有所帮助