Machine learning Weka：基于多文本属性的文本情感分析_Machine Learning_Data Mining_Weka_Sentiment Analysis

Machine learning Weka：基于多文本属性的文本情感分析

machine-learning

Machine learning Weka：基于多文本属性的文本情感分析,machine-learning,data-mining,weka,sentiment-analysis,Machine Learning,Data Mining,Weka,Sentiment Analysis,我期待做多个文本属性的文本情感分析。我遵循了这个伟大的方法，它可以用于单个文本属性及其类-正数或负数。我想将这个想法同时扩展到多个属性为了说明这一点，我举了一个例子：从客户收集的有关零售店的属性：商店体验回顾-字符串集合审阅-字符串提供的协助-审查字符串整体排名-整数（1到5）-等级我想要基于类属性（4）的所有属性（1-3）进行分析如果我尝试为每个属性单独使用过滤器>无监督>属性>StringToOrdVector，则观察到结果的正确分类率较低这是执行文本情感分析的正确方法吗？

我期待做多个文本属性的文本情感分析。我遵循了这个伟大的方法，它可以用于单个文本属性及其类-正数或负数。我想将这个想法同时扩展到多个属性

为了说明这一点，我举了一个例子：

从客户收集的有关零售店的属性：

商店体验回顾-字符串

集合审阅-字符串

提供的协助-审查字符串

整体排名-整数（1到5）-等级

我想要基于类属性（4）的所有属性（1-3）进行分析

如果我尝试为每个属性单独使用过滤器>无监督>属性>StringToOrdVector，则观察到结果的正确分类率较低

这是执行文本情感分析的正确方法吗？

您正在接近，因为您正在保存有关零售商店不同方面（属性）的信息。为了对商店进行全面分析，在分析中混合所有属性是正确的；只需将

StringToWordVector

应用于所有字符串属性即可

一方面，您可能会提高准确性，因为当只使用其中一个属性时，您将获得更好的统计信息和更多的特性。另一方面，你可能会降低准确度，因为一个评论可能会对商店体验说一些积极的东西，但总体来说是消极的，因此混合属性可能会在模型中产生一些噪音-但是这不太可能，因为这样的评论在仅从商店体验属性学习时是一个坏例子

如果您按照本教程进行操作，您将看到

StringToWordVector

过滤器中有很多选项，您还可以添加

AttributeSelection

。我建议测试每个属性和组合所有属性，使用

StringToWordVector

过滤器中的二进制/TF/TF.IDF权重，使用

NGramTokenizer

（用于识别正/负多字，例如“非常非常好”），将

AttributeSelection

与

Ranker

和

infogainattributeval

一起使用，当然，还要测试尽可能多的学习算法

您还有一个附加教程