Text mining 基于OpenNLP的情绪分析

Text mining 基于OpenNLP的情绪分析,text-mining,sentiment-analysis,opennlp,Text Mining,Sentiment Analysis,Opennlp,我正在使用ApacheOpenNLP对Yammer对话进行情绪分析。这里的想法是将每次谈话分为积极、消极或中性情绪。对话可以是一个句子或一组句子 我有两个模型-一个短句分类模型和一个长句分类模型。短句分类模型使用截距为2的短句(少于10个单词)进行训练,长句分类模型使用截距为5的长句进行训练 这是我的方法 阅读每个对话 清除它以删除HTTP URL、特殊字符、在点后添加空格等 使用句子检测器将对话分成几个句子 对于每个句子调用分类。如果句子较短,则调用短句分类模型,否则调用长句分类模型。句子分类

我正在使用ApacheOpenNLP对Yammer对话进行情绪分析。这里的想法是将每次谈话分为积极、消极或中性情绪。对话可以是一个句子或一组句子

我有两个模型-一个短句分类模型和一个长句分类模型。短句分类模型使用截距为2的短句(少于10个单词)进行训练,长句分类模型使用截距为5的长句进行训练

这是我的方法

  • 阅读每个对话
  • 清除它以删除HTTP URL、特殊字符、在点后添加空格等
  • 使用句子检测器将对话分成几个句子
  • 对于每个句子调用分类。如果句子较短,则调用短句分类模型,否则调用长句分类模型。句子分类的输出为正、负或中性
  • 总结句子分类的结果。i、 e如果发现更多的肯定句,则将对话分为肯定句、否定句或中性句 我有几个问题与这种方法有关

  • 我需要两个模型吗?一个短句模型和一个长句模型。我决定这样做的原因是因为缩短句子和延长句子的截止时间是不同的
  • 是否可以遵循基于句子的分类模型,然后总结每个句子的结果以获得对话的结果
  • 是否有标准/更好的方法解决此问题

  • 我认为你的方法是有效的……试图在大块文本上建立情感模型是有问题的,所以基于句子的方法对我来说似乎是个好主意

    至于长句和短句模型,这似乎是个好主意,假设短句和长句的内容之间有足够大的差异(“通常”)。你也可以考虑长句模型的不同特征生成器…有时候NGG(Word BigRAM)很好地帮助上下文的内容比普通的单词袋法稍微多一些。

    对于输出,由于每个线程中的未知语句量(也许……),求和的总和可能有点太难正常化,所以我会考虑对每个模型的每个类做基本统计(最小,最大,总和,AVG,STDEV,多数),这样你可以问更好的结果问题。(例如,您可以将结果写入索引以进行模糊发现,从而启用多个用例)