Nlp 情绪分析的最佳算法方法

Nlp 情绪分析的最佳算法方法,nlp,sentiment-analysis,Nlp,Sentiment Analysis,我的要求是接收新闻文章,并确定它们对某个主题是正面的还是负面的。我采取下面概述的方法,但我一直在阅读NLP可能在这里有用。我所读到的所有内容都指向NLP从事实中发现观点,我认为这在我的案例中并不重要。我想知道两件事: 1) 为什么我的算法不能工作和/或如何改进它?(我知道讽刺可能是一个陷阱,但我也不认为在我们将得到的新闻类型中会发生太多) 2) NLP有什么帮助,我为什么要使用它 我的算法方法(我有肯定词、否定词和否定词词典): 1) 计算文章中正反两个词的数量 2) 如果发现一个否定词有2个或

我的要求是接收新闻文章,并确定它们对某个主题是正面的还是负面的。我采取下面概述的方法,但我一直在阅读NLP可能在这里有用。我所读到的所有内容都指向NLP从事实中发现观点,我认为这在我的案例中并不重要。我想知道两件事:

1) 为什么我的算法不能工作和/或如何改进它?(我知道讽刺可能是一个陷阱,但我也不认为在我们将得到的新闻类型中会发生太多)

2) NLP有什么帮助,我为什么要使用它

我的算法方法(我有肯定词、否定词和否定词词典):

1) 计算文章中正反两个词的数量

2) 如果发现一个否定词有2个或3个肯定词或否定词(即:不是最好的),则否定分数

3) 将分数乘以手动分配给每个单词的权重。(从1.0开始)


4) 将正面和负面的总数相加,得到情绪分数。

你为什么不试试类似垃圾邮件过滤器的工作原理呢?内涵挖掘和意见挖掘之间确实没有太大区别。

我不认为你的算法有什么特别的错误,这是一种相当简单和实用的方法,但在很多情况下它会出错

  • 暧昧的情感词-“此产品非常有效”与“此产品非常好”

  • 错过的否定-“在数百万年内,我永远不会说这个产品值得购买”

  • 引用/间接文本-“我爸爸说这个产品很糟糕,但我不同意”

  • 比较-“该产品的实用性相当于头部的一个孔”

  • 任何微妙的东西-“这款产品丑陋、缓慢且缺乏创意,但它是市场上唯一能起作用的产品”

  • 我用产品评论作为例子,而不是新闻故事,但你明白了。事实上,新闻文章可能更难,因为它们往往试图展示论点的两面,并倾向于使用某种风格来表达观点。例如,最后一个例子在意见片中非常常见

    至于NLP在这方面的帮助,(甚至只是)可能有助于(1),可能有助于(2)中的长期依赖关系,某种可能有助于(3)。不过,这都是研究级的工作,据我所知,没有什么可以直接使用的。问题(4)和(5)要困难得多,我举手放弃了

    我会坚持你的方法,仔细查看输出,看看它是否在做你想要的事情。当然,这就引出了一个问题,你想让你首先理解“情绪”的定义……

    我最喜欢的例子是“读这本书”。它不包含明确的情感词,并且高度依赖于上下文。如果它出现在电影评论中,那就意味着这部电影糟透了,它是在浪费你的时间,但书是好的。然而,如果它是在书评,它提供了一个积极的情绪

    那么,“这是市场上最小的[移动]手机”呢。早在90年代,这是一个伟大的赞美。今天,这可能表明它太小了


    我认为这是获得情绪分析复杂性的起点:(康奈尔大学的Lillian Lee)机器学习技术可能更好


    拥有一种达到92%准确率的技术,使用与您类似的技术处理否定,并使用支持向量机进行文本分类。

    您可能会发现OpinionFinder系统和描述它的论文很有用。 可在网站上与其他资源一起使用,以进行意见分析


    它超越了文档级别的极性分类,而是尝试在句子级别找到个人观点

    我相信,对于你提到的所有问题,最好的答案是阅读刘冰教授的《情绪分析与观点挖掘》一书。这本书是情绪分析领域最好的一本书。真是太神奇了。只要看一看,你就会找到所有“为什么”和“如何”问题的答案

    情绪分析在定义上是NLP的一种形式;您正在处理自然语言文本。要确切了解您的方法的效果,唯一的方法就是尝试一下。方便的是,这也会告诉你它是否能满足你的目的,而这实际上是最重要的部分。看看这个问题及其答案,一个简单的算法在实践中效果很好:我的算法是最好的算法。因为我是一名研究情绪分析的研究生,我很自负:)-1。实践中有很多不同之处。意见挖掘要比垃圾邮件检测困难得多。我的事后估计(基于我正在注释的一组自以为是的文本中的20篇文档)大约3%的正面/负面意见是可比较的,因此#4可能不是什么大问题。长期依赖性是一个大问题,因此语法分析是一个好主意,尽管将产品功能与他们的观点联系起来的不同模式数量巨大。好名字和好答案情绪分析并不是一盏神灯。它并不意味着提供基于单个孤立实例的洞察力。人类甚至无法根据您给出的句子的单个无上下文实例提供有用的输出。这就是为什么必须在一个感兴趣的场景中进行汇总,分析数十/数百/数千条话语,以了解某个主题(随着时间的推移)的情绪(或情绪流)。Cris-是和否。你适合某些实际应用(取决于