Parsing “确定”;“心情”;从词汇分析看语篇短语的翻译

Parsing “确定”;“心情”;从词汇分析看语篇短语的翻译,parsing,text,lexer,Parsing,Text,Lexer,我正在寻找应用分数(积极的,消极的或中立的)的文字短短语。除了解析表情符号和根据它们的用法做出假设之外,我不确定还有什么可以尝试的。任何人都可以提供例子、研究论文、文章等,对这个问题进行更多的词汇分析 我认为副词的使用、标点符号的误用/重复、拼写/语法错误等都可能是作者情绪的一个很好的指标,几乎是二元意义上的(好的或坏的)。这听起来是一个非常有趣的想法——我很想看看它会带来什么 我想说,标点符号是一个指标,你可以使用 ?-一个问题 (或某些变体)不相信 用诸如愚蠢、白痴等短语-愤怒 …-犹豫、

我正在寻找应用分数(积极的,消极的或中立的)的文字短短语。除了解析表情符号和根据它们的用法做出假设之外,我不确定还有什么可以尝试的。任何人都可以提供例子、研究论文、文章等,对这个问题进行更多的词汇分析


我认为副词的使用、标点符号的误用/重复、拼写/语法错误等都可能是作者情绪的一个很好的指标,几乎是二元意义上的(好的或坏的)。

这听起来是一个非常有趣的想法——我很想看看它会带来什么

我想说,标点符号是一个指标,你可以使用

  • -一个问题
  • (或某些变体)不相信
  • 用诸如愚蠢、白痴等短语-愤怒
  • -犹豫、讽刺
你也可以试着学习一些常见的首字母缩略词,比如

  • 大笑-大笑(正面)
  • WTF,天哪-难以置信,震惊
  • IMO-思考、解释

这显然是一件非常复杂的事情,但听起来很有趣

嗯,(也有一个)似乎是与你所谈论的内容最接近的一个公认的调查领域。它不太“以价值为导向”,更多地关注更大的文档,但仍然可能与您的问题有关。

这听起来像是一项非常明确的二进制分类任务,您可以将问题简化为正面或负面,然后通过将概率质量设置为中性,做出熵最大的决策,或者那些尚未达到确定阈值的决策

你最大的障碍是获取随机机器学习方法的训练数据。您可以使用一个现成的最大熵模型(如or)轻松做到这一点。您描述的功能只需按照这些模型使用的输入进行格式化即可

为了获得培训数据,你可以做一些付费的众包,比如亚马逊的Mechanical Turk,也可以自己做,也许可以在朋友的帮助下。为此,您需要大量数据。您可以通过主动学习、集成或增强等方法,在数据匮乏的情况下提高模型的预测能力,但重要的是,尽可能根据实际数据测试这些方法,并选择在实际应用中效果最好的方法


如果你正在寻找这方面的论文,你会想看看谷歌学者中的“情绪分析”一词。有许多来自会议和期刊的免费和有用的论文,从语言学和算法的角度解决了这个问题。我也会浏览他们的档案。祝你好运

还有一个类似的问题:在电子邮件/短信式的对话中,即使是人类也难以确定情绪/语气。除非你谈论的是使用关键词(例如:“喊叫”和“愤怒”)分析小说,否则你的工作就要完成了。