Machine learning Weka:基于多文本属性的文本情感分析

Machine learning Weka:基于多文本属性的文本情感分析,machine-learning,data-mining,weka,sentiment-analysis,Machine Learning,Data Mining,Weka,Sentiment Analysis,我期待做多个文本属性的文本情感分析。我遵循了这个伟大的方法,它可以用于单个文本属性及其类-正数或负数。我想将这个想法同时扩展到多个属性 为了说明这一点,我举了一个例子: 从客户收集的有关零售店的属性: 商店体验回顾-字符串 集合审阅-字符串 提供的协助-审查字符串 整体排名-整数(1到5)-等级 我想要基于类属性(4)的所有属性(1-3)进行分析 如果我尝试为每个属性单独使用过滤器>无监督>属性>StringToOrdVector,则观察到结果的正确分类率较低 这是执行文本情感分析的正确方法吗?

我期待做多个文本属性的文本情感分析。我遵循了这个伟大的方法,它可以用于单个文本属性及其类-正数或负数。我想将这个想法同时扩展到多个属性

为了说明这一点,我举了一个例子:

从客户收集的有关零售店的属性:

  • 商店体验回顾-字符串
  • 集合审阅-字符串
  • 提供的协助-审查字符串
  • 整体排名-整数(1到5)-等级
  • 我想要基于类属性(4)的所有属性(1-3)进行分析

    如果我尝试为每个属性单独使用过滤器>无监督>属性>StringToOrdVector,则观察到结果的正确分类率较低

    这是执行文本情感分析的正确方法吗?

    您正在接近,因为您正在保存有关零售商店不同方面(属性)的信息。为了对商店进行全面分析,在分析中混合所有属性是正确的;只需将
    StringToWordVector
    应用于所有字符串属性即可

    一方面,您可能会提高准确性,因为当只使用其中一个属性时,您将获得更好的统计信息和更多的特性。另一方面,你可能会降低准确度,因为一个评论可能会对商店体验说一些积极的东西,但总体来说是消极的,因此混合属性可能会在模型中产生一些噪音-但是这不太可能,因为这样的评论在仅从商店体验属性学习时是一个坏例子

    如果您按照本教程进行操作,您将看到
    StringToWordVector
    过滤器中有很多选项,您还可以添加
    AttributeSelection
    。我建议测试每个属性和组合所有属性,使用
    StringToWordVector
    过滤器中的二进制/TF/TF.IDF权重,使用
    NGramTokenizer
    (用于识别正/负多字,例如“非常非常好”),将
    AttributeSelection
    Ranker
    infogainattributeval
    一起使用,当然,还要测试尽可能多的学习算法

    您还有一个附加教程