Parsing “确定”；“心情”；从词汇分析看语篇短语的翻译_Parsing_Text_Lexer

Parsing “确定”；“心情”；从词汇分析看语篇短语的翻译

parsing text

Parsing “确定”；“心情”；从词汇分析看语篇短语的翻译,parsing,text,lexer,Parsing,Text,Lexer,我正在寻找应用分数（积极的，消极的或中立的）的文字短短语。除了解析表情符号和根据它们的用法做出假设之外，我不确定还有什么可以尝试的。任何人都可以提供例子、研究论文、文章等，对这个问题进行更多的词汇分析我认为副词的使用、标点符号的误用/重复、拼写/语法错误等都可能是作者情绪的一个很好的指标，几乎是二元意义上的（好的或坏的）。这听起来是一个非常有趣的想法——我很想看看它会带来什么我想说，标点符号是一个指标，你可以使用？-一个问题（或某些变体）不相信用诸如愚蠢、白痴等短语-愤怒 …-犹豫、

我正在寻找应用分数（积极的，消极的或中立的）的文字短短语。除了解析表情符号和根据它们的用法做出假设之外，我不确定还有什么可以尝试的。任何人都可以提供例子、研究论文、文章等，对这个问题进行更多的词汇分析

我认为副词的使用、标点符号的误用/重复、拼写/语法错误等都可能是作者情绪的一个很好的指标，几乎是二元意义上的（好的或坏的）。

这听起来是一个非常有趣的想法——我很想看看它会带来什么

我想说，标点符号是一个指标，你可以使用

？-一个问题
（或某些变体）不相信
用诸如愚蠢、白痴等短语-愤怒
…-犹豫、讽刺

你也可以试着学习一些常见的首字母缩略词，比如

大笑-大笑（正面）
WTF，天哪-难以置信，震惊
IMO-思考、解释

这显然是一件非常复杂的事情，但听起来很有趣

嗯，（也有一个）似乎是与你所谈论的内容最接近的一个公认的调查领域。它不太“以价值为导向”，更多地关注更大的文档，但仍然可能与您的问题有关。

这听起来像是一项非常明确的二进制分类任务，您可以将问题简化为正面或负面，然后通过将概率质量设置为中性，做出熵最大的决策，或者那些尚未达到确定阈值的决策

你最大的障碍是获取随机机器学习方法的训练数据。您可以使用一个现成的最大熵模型（如or）轻松做到这一点。您描述的功能只需按照这些模型使用的输入进行格式化即可

为了获得培训数据，你可以做一些付费的众包，比如亚马逊的Mechanical Turk，也可以自己做，也许可以在朋友的帮助下。为此，您需要大量数据。您可以通过主动学习、集成或增强等方法，在数据匮乏的情况下提高模型的预测能力，但重要的是，尽可能根据实际数据测试这些方法，并选择在实际应用中效果最好的方法

如果你正在寻找这方面的论文，你会想看看谷歌学者中的“情绪分析”一词。有许多来自会议和期刊的免费和有用的论文，从语言学和算法的角度解决了这个问题。我也会浏览他们的档案。祝你好运

还有一个类似的问题：在电子邮件/短信式的对话中，即使是人类也难以确定情绪/语气。除非你谈论的是使用关键词（例如：“喊叫”和“愤怒”）分析小说，否则你的工作就要完成了。