Nlp 对语义相似性进行微调

Nlp 对语义相似性进行微调,nlp,cosine-similarity,pearson-correlation,sentence-similarity,Nlp,Cosine Similarity,Pearson Correlation,Sentence Similarity,我想应用微调Bert来计算句子之间的语义相似性。 我搜索了很多网站,但我几乎找不到关于这个的下游 我刚刚找到了STS基准测试。 我想知道是否可以使用STS基准数据集来训练微调的bert模型,并将其应用到我的任务中。 这合理吗 据我所知,计算相似度的方法有很多,包括余弦相似度、皮尔逊相关度、曼哈顿距离等。 如何选择语义相似性?作为前面的一般评论,我想强调,在Stackoverflow主题中可能不会考虑此类问题,请参阅。然而,对于这类问题(无代码、理论PoV),有一些相关的网站可能更好,即,或 如果

我想应用微调Bert来计算句子之间的语义相似性。 我搜索了很多网站,但我几乎找不到关于这个的下游

我刚刚找到了STS基准测试。 我想知道是否可以使用STS基准数据集来训练微调的bert模型,并将其应用到我的任务中。 这合理吗

据我所知,计算相似度的方法有很多,包括余弦相似度、皮尔逊相关度、曼哈顿距离等。
如何选择语义相似性?

作为前面的一般评论,我想强调,在Stackoverflow主题中可能不会考虑此类问题,请参阅。然而,对于这类问题(无代码、理论PoV),有一些相关的网站可能更好,即,或

如果你看看Mueller和Thyagarajan的一篇文章,这篇文章关注的是学习LSTM上的句子相似性,他们使用了一个密切相关的数据集(the),该数据集也是由SemEval竞赛主办的,并在2014年与STS基准一起运行

其中任何一个都应该是合理的微调设置,但STS已经运行了多年,因此可用的训练数据量可能会更大

作为这一主题的优秀入门,我还可以高度推荐Adrien Sieg的媒体文章(参见,附带GitHub参考资料)


对于语义相似性,我估计你更擅长微调(或训练)神经网络,因为你提到的大多数经典相似性度量都更关注标记相似性(因此,句法相似性,尽管未必如此)。另一方面,语义有时可能在单个单词上存在巨大差异(可能是否定词,或两个单词的句子位置互换),这很难用静态方法进行解释或评估。

此外,如果您要进行二元判断(是/否表示“语义相似”),BERT实际上使用MRPC(微软研究释义语料库)对此任务进行了基准测试。
google github repo包含了一些关于此的示例调用,请参阅“句子(和句子对)分类任务”一节中的--task_name=MRPC。

谢谢您的帮助。我不熟悉此平台。我将选中“询问”规则又来了。我的糟糕的格式在这里被我抓住了。我将扩展格式检查这篇数据集论文,一个语义相似性的优化Bert arxiv.org/abs/2004.10349 HuggingFace有例子,在MRPC上优化Bert-谢谢你的建议。我知道,但我的任务不是二进制的。我的任务是我有100,00个问题和300个不同项目的说明。我想为每个问题匹配一个项目。检查此包