Text mining 基于OpenNLP的情绪分析
我正在使用ApacheOpenNLP对Yammer对话进行情绪分析。这里的想法是将每次谈话分为积极、消极或中性情绪。对话可以是一个句子或一组句子 我有两个模型-一个短句分类模型和一个长句分类模型。短句分类模型使用截距为2的短句(少于10个单词)进行训练,长句分类模型使用截距为5的长句进行训练 这是我的方法Text mining 基于OpenNLP的情绪分析,text-mining,sentiment-analysis,opennlp,Text Mining,Sentiment Analysis,Opennlp,我正在使用ApacheOpenNLP对Yammer对话进行情绪分析。这里的想法是将每次谈话分为积极、消极或中性情绪。对话可以是一个句子或一组句子 我有两个模型-一个短句分类模型和一个长句分类模型。短句分类模型使用截距为2的短句(少于10个单词)进行训练,长句分类模型使用截距为5的长句进行训练 这是我的方法 阅读每个对话 清除它以删除HTTP URL、特殊字符、在点后添加空格等 使用句子检测器将对话分成几个句子 对于每个句子调用分类。如果句子较短,则调用短句分类模型,否则调用长句分类模型。句子分类
我认为你的方法是有效的……试图在大块文本上建立情感模型是有问题的,所以基于句子的方法对我来说似乎是个好主意 至于长句和短句模型,这似乎是个好主意,假设短句和长句的内容之间有足够大的差异(“通常”)。你也可以考虑长句模型的不同特征生成器…有时候NGG(Word BigRAM)很好地帮助上下文的内容比普通的单词袋法稍微多一些。
对于输出,由于每个线程中的未知语句量(也许……),求和的总和可能有点太难正常化,所以我会考虑对每个模型的每个类做基本统计(最小,最大,总和,AVG,STDEV,多数),这样你可以问更好的结果问题。(例如,您可以将结果写入索引以进行模糊发现,从而启用多个用例)
嗯