Nlp 基于transformer的语言模型是否过度适用于释义识别任务？什么工具可以克服这一点？_Nlp_Huggingface Transformers_Msrpc

Nlp 基于transformer的语言模型是否过度适用于释义识别任务？什么工具可以克服这一点？

nlp

Nlp 基于transformer的语言模型是否过度适用于释义识别任务？什么工具可以克服这一点？,nlp,huggingface-transformers,msrpc,Nlp,Huggingface Transformers,Msrpc,我一直在做一个句子转换任务，其中涉及到释义识别，这是一个关键步骤：如果我们有足够的信心，程序的状态（一个反复修改的句子）已经变成了目标句子的释义，停止转换。总体目标实际上是研究预测模型中的潜在推理，该模型可以在目标句子之前生成语言。这种方法只是实现这一目标的一种具体方式。尽管如此，我还是对释义识别任务本身感兴趣，因为它最近从语言模型中得到了一些提升我遇到的问题是当我从示例或数据集中操作句子时。例如，在这篇文章中，如果我否定序列或将主题改为彭博社，我仍然会得到大多数“是释义”预测。我开始学习训练

我一直在做一个句子转换任务，其中涉及到释义识别，这是一个关键步骤：如果我们有足够的信心，程序的状态（一个反复修改的句子）已经变成了目标句子的释义，停止转换。总体目标实际上是研究预测模型中的潜在推理，该模型可以在目标句子之前生成语言。这种方法只是实现这一目标的一种具体方式。尽管如此，我还是对释义识别任务本身感兴趣，因为它最近从语言模型中得到了一些提升

我遇到的问题是当我从示例或数据集中操作句子时。例如，在这篇文章中，如果我否定序列或将主题改为彭博社，我仍然会得到大多数“是释义”预测。我开始学习训练集中的许多例子，在一个正面例子中否定一个句子，或者在一个反面例子中把一个句子改写成另一个句子，特别是当这样做需要几个单词的时候。我惊讶地发现，各种语言模型，如

bert base cased fineted mrpc

和

textack/roberta base mrpc

，并没有改变他们对这些变化的信心。令人惊讶的是，这些车型的f1成绩为+。数据集显然缺少对负面例子和小扰动例子的关注

我的问题是，有没有数据集、技术或模型在进行小的编辑时处理得很好？我知道这是一个非常普遍的问题，比通常在StackOverflow上提出的问题要多得多，但我关心的是如何找到实用的工具。如果有一种理论技术，那么它可能不适合，因为我属于“可用工具定义您的方法”的范畴，而不是相反。因此，我希望社区对此有一个建议。

对这个问题的简短回答：是的，它们太过合适了。大多数重要的NLP数据集实际上都不够精巧，无法测试它们声称要测试的内容，而是测试模型在数据中发现微妙（而不是如此微妙）模式的能力

我所知道的创建有助于处理此问题的数据集的最佳工具是。相应的论文，可读性很强，并且深入讨论了这类问题。他们有一个非常相关的表格。。。但需要一些术语：

我们提示用户使用三种不同的测试类型（如果可能）：最小功能测试、不变性测试和方向期望测试。。。最小功能测试（MFT）是一个简单示例（和标签）的集合，用于检查能力范围内的行为。MFT类似于创建小型且集中的测试数据集，并且特别适用于检测模型何时使用处理复杂输入的快捷方式掌握能力

…不变性测试（INV）是在我们应用输入和期望的标签保持扰动模型预测保持不变

方向期望测试（DIR）与此类似，除了标签预期会以某种方式改变之外。例如，我们期望这种情绪如果我们加上“你是的”，就不会变得更积极在针对航空公司的推文末尾（图1C）

一篇精彩的论文。谢谢分享。这表明不同的模型，或者甚至不同的检查点，可以有完全不同的属性。我可以看到我自己使用这个工具来验证我关于健壮性的想法。我认为这篇论文也将是一个开始研究相关项目的好地方，尤其是那些在这个验证任务中做得很好的项目。