Nlp 基于transformer的语言模型是否过度适用于释义识别任务?什么工具可以克服这一点?

Nlp 基于transformer的语言模型是否过度适用于释义识别任务?什么工具可以克服这一点?,nlp,huggingface-transformers,msrpc,Nlp,Huggingface Transformers,Msrpc,我一直在做一个句子转换任务,其中涉及到释义识别,这是一个关键步骤:如果我们有足够的信心,程序的状态(一个反复修改的句子)已经变成了目标句子的释义,停止转换。总体目标实际上是研究预测模型中的潜在推理,该模型可以在目标句子之前生成语言。这种方法只是实现这一目标的一种具体方式。尽管如此,我还是对释义识别任务本身感兴趣,因为它最近从语言模型中得到了一些提升 我遇到的问题是当我从示例或数据集中操作句子时。例如,在这篇文章中,如果我否定序列或将主题改为彭博社,我仍然会得到大多数“是释义”预测。我开始学习训练

我一直在做一个句子转换任务,其中涉及到释义识别,这是一个关键步骤:如果我们有足够的信心,程序的状态(一个反复修改的句子)已经变成了目标句子的释义,停止转换。总体目标实际上是研究预测模型中的潜在推理,该模型可以在目标句子之前生成语言。这种方法只是实现这一目标的一种具体方式。尽管如此,我还是对释义识别任务本身感兴趣,因为它最近从语言模型中得到了一些提升

我遇到的问题是当我从示例或数据集中操作句子时。例如,在这篇文章中,如果我否定序列或将主题改为彭博社,我仍然会得到大多数“是释义”预测。我开始学习训练集中的许多例子,在一个正面例子中否定一个句子,或者在一个反面例子中把一个句子改写成另一个句子,特别是当这样做需要几个单词的时候。我惊讶地发现,各种语言模型,如
bert base cased fineted mrpc
textack/roberta base mrpc
,并没有改变他们对这些变化的信心。令人惊讶的是,这些车型的f1成绩为+。数据集显然缺少对负面例子和小扰动例子的关注


我的问题是,有没有数据集、技术或模型在进行小的编辑时处理得很好?我知道这是一个非常普遍的问题,比通常在StackOverflow上提出的问题要多得多,但我关心的是如何找到实用的工具。如果有一种理论技术,那么它可能不适合,因为我属于“可用工具定义您的方法”的范畴,而不是相反。因此,我希望社区对此有一个建议。

对这个问题的简短回答:是的,它们太过合适了。大多数重要的NLP数据集实际上都不够精巧,无法测试它们声称要测试的内容,而是测试模型在数据中发现微妙(而不是如此微妙)模式的能力

我所知道的创建有助于处理此问题的数据集的最佳工具是。相应的论文,可读性很强,并且深入讨论了这类问题。他们有一个非常相关的表格。。。但需要一些术语:

我们提示用户使用 三种不同的测试类型(如果可能):最小功能测试、不变性测试和方向期望测试。。。最小功能测试(MFT)是一个简单示例(和标签)的集合,用于检查 能力范围内的行为。MFT类似于 创建小型且集中的测试数据集,并且 特别适用于检测模型何时使用 处理复杂输入的快捷方式 掌握能力

…不变性测试(INV)是在我们应用 输入和期望的标签保持扰动 模型预测保持不变

方向期望测试(DIR)与此类似, 除了标签预期会以某种方式改变之外。例如,我们期望这种情绪 如果我们加上“你是的”,就不会变得更积极 在针对航空公司的推文末尾 (图1C)


一篇精彩的论文。谢谢分享。这表明不同的模型,或者甚至不同的检查点,可以有完全不同的属性。我可以看到我自己使用这个工具来验证我关于健壮性的想法。我认为这篇论文也将是一个开始研究相关项目的好地方,尤其是那些在这个验证任务中做得很好的项目。