Algorithm 算法能检测出讽刺吗

Algorithm 算法能检测出讽刺吗,algorithm,nlp,Algorithm,Nlp,我被要求编写一个检测讽刺的算法,但我在逻辑上遇到了一个缺陷(或者看起来像是一个缺陷) 例如,如果一个人说 我爱贾斯汀·贝伯。你喜欢他这样做吗 B:是的。当然我绝对爱他 现在,这可能被认为是讽刺与否,唯一能知道的方法似乎是知道B是否严重 (我本不想深入讨论。我们得到了一大堆短语,只是被告知如果这些短语出现在句子中,那就是讽刺,但我感兴趣了?) 有办法解决这个问题吗?或者说,当涉及到讽刺时,电脑是不是完全被卡住了 (我想这取决于说话人的语调,但我的输入是文本)讽刺实际上是关于说话的语调,文本并不代表

我被要求编写一个检测讽刺的算法,但我在逻辑上遇到了一个缺陷(或者看起来像是一个缺陷)

例如,如果一个人说

我爱贾斯汀·贝伯。你喜欢他这样做吗

B:是的。当然我绝对爱他

现在,这可能被认为是讽刺与否,唯一能知道的方法似乎是知道B是否严重

(我本不想深入讨论。我们得到了一大堆短语,只是被告知如果这些短语出现在句子中,那就是讽刺,但我感兴趣了?)

有办法解决这个问题吗?或者说,当涉及到讽刺时,电脑是不是完全被卡住了


(我想这取决于说话人的语调,但我的输入是文本)

讽刺实际上是关于说话的语调,文本并不代表说话的语调,同样,这句话的真实性也可以决定它的讽刺

如果输入是由用户输入的,有两种方法可以实现

一个是基于他们用互联网术语写的东西

例如:

用户可以键入:

“是的,当然。我绝对爱他。/讽刺”

您可以查找诸如
/sarcasm
[/sarcasm]
等关键字


或者,您可以使用统计概率:


“是的,我是美国总统”
。。。。从统计上看,它在事实上是正确的几率很低,甚至可以被标记为讽刺。

那么,从文化或语言的角度来看,讽刺到底是什么呢?如果你想解决这个复杂的问题,你必须澄清这一点。这个问题非常复杂,因为需要在某些人类语言中使用人工智能。你可以从中获得一些灵感

…句子由用户编写。这是两个人之间的模拟对话

用一个短语就几乎不可能检测出讽刺,但在上下文中可能更可行一些。让我们假设您可以解析这个句子并解释它的字面意思(这不是一项简单的任务,但这个问题至少已经得到了某种程度的解决)

现在,您可以从以下位置获得上下文:

  • 对话中的所有短语
  • 另一位发言者的回答
  • 交叉引用短语 要利用#1,您可以相互交叉引用所有短语。有没有直接矛盾的地方

    例如:

    演讲者1:我爱贾斯汀·比伯。是吗?
    演讲者2:完全正确!我爱他。
    演讲者1:你最喜欢他什么?
    演讲者2:他的音乐棒极了
    演讲者1:真的吗?你最喜欢哪首歌?
    演讲者2:拜托,你知道我讨厌他的音乐

    我们知道有两个相互矛盾的短语,“我爱他!”和“我讨厌他的音乐”。至少有可能发生了讽刺

    其他发言者的问题或答复 方法#2可能更有效(或者没有用……也许讽刺是双方都知道的,但没有说出来)

    例如:

    演讲者1:贾斯汀·比伯在城里。我很想去看他。
    发言者2:哈

    另一个例子:

    演讲者1:我爱贾斯汀·比伯。是吗?
    演讲者2:我的床上有一张他的巨型海报。
    演讲者1:对

    更详细地说,你可以运用一种启发式方法来确定谈话在特定短语之后偏离的程度

    演讲者1:我太喜欢贾斯汀·比伯了!!!是吗?
    发言人1作了一次强调性发言
    演讲者2:是的,当然。
    讽刺的。我们不知道,但对话中的另一个人知道

    1号演讲者现在朝哪个方向走?他们会改变话题吗?根据谈话的激烈程度,这可能表明他们对感知到的反应有何反应


    尽管如此,这其中的大部分都需要复杂的处理,我最多只能期望非常低的准确率。但这是一个有趣的问题。

    看起来有一些研究正试图这样做,但他们还没有找到一个运行良好的算法

    讽刺和反讽是语言学中研究得很好的现象, 心理学和认知科学[…]。但是在文本挖掘中 在文献中,讽刺的自动检测被认为是一个难点 问题[…]和 仅在少数几项研究中解决了这一问题。[…]与我们的工作最密切相关的是Davidov等人的工作。 (2010),其目的是识别讽刺和非讽刺 Twitter和亚马逊产品评论中的言论。在本文中,我们 考虑区分讽刺性的推文和非讽刺性的推文的难度更大的问题

    他们得出结论:

    也许毫不奇怪,无论是人类的法官还是机器 学习技巧表现得很好。[…]我们的研究结果表明,词汇特征本身并不足以识别讽刺,语用和语境特征值得进一步研究

    下面是另一篇最近的相关文章:

    我认为讽刺在很大程度上取决于说话人的语气。除非你知道B不喜欢贾斯汀·贝伯,否则他们无法知道这是否是一个讽刺性的评论。我知道这没有帮助,但很多人很难确定文本中的讽刺!问english.stackexchange.com看看人类是否能察觉到讽刺,你可能会更幸运。哦,祝你好运!一篇关于讽刺检测的学术文章,称为SASI的算法——希伯来大学开发的讽刺识别半监督算法。检测准确率为77%…我应该补充一点:第一个例子有助于发现用户是否在撒谎,而不是讽刺。相互矛盾的陈述在谎言中很常见。诚然,从技术上讲,讽刺性的陈述通常是不真实的,谎言也是如此。这是一条很好的界线:帕格里德,你很容易发现谎言而不是讽刺……我也这么认为。这将取决于主题,但