Nlp 对语义相似性进行微调_Nlp_Cosine Similarity_Pearson Correlation_Sentence Similarity

Nlp 对语义相似性进行微调

nlp

Nlp 对语义相似性进行微调,nlp,cosine-similarity,pearson-correlation,sentence-similarity,Nlp,Cosine Similarity,Pearson Correlation,Sentence Similarity,我想应用微调Bert来计算句子之间的语义相似性。我搜索了很多网站，但我几乎找不到关于这个的下游我刚刚找到了STS基准测试。我想知道是否可以使用STS基准数据集来训练微调的bert模型，并将其应用到我的任务中。这合理吗据我所知，计算相似度的方法有很多，包括余弦相似度、皮尔逊相关度、曼哈顿距离等。如何选择语义相似性？作为前面的一般评论，我想强调，在Stackoverflow主题中可能不会考虑此类问题，请参阅。然而，对于这类问题（无代码、理论PoV），有一些相关的网站可能更好，即，或如果

我想应用微调Bert来计算句子之间的语义相似性。我搜索了很多网站，但我几乎找不到关于这个的下游

我刚刚找到了STS基准测试。我想知道是否可以使用STS基准数据集来训练微调的bert模型，并将其应用到我的任务中。这合理吗

据我所知，计算相似度的方法有很多，包括余弦相似度、皮尔逊相关度、曼哈顿距离等。

如何选择语义相似性？

作为前面的一般评论，我想强调，在Stackoverflow主题中可能不会考虑此类问题，请参阅。然而，对于这类问题（无代码、理论PoV），有一些相关的网站可能更好，即，或

如果你看看Mueller和Thyagarajan的一篇文章，这篇文章关注的是学习LSTM上的句子相似性，他们使用了一个密切相关的数据集（the），该数据集也是由SemEval竞赛主办的，并在2014年与STS基准一起运行

其中任何一个都应该是合理的微调设置，但STS已经运行了多年，因此可用的训练数据量可能会更大

作为这一主题的优秀入门，我还可以高度推荐Adrien Sieg的媒体文章（参见，附带GitHub参考资料）

对于语义相似性，我估计你更擅长微调（或训练）神经网络，因为你提到的大多数经典相似性度量都更关注标记相似性（因此，句法相似性，尽管未必如此）。另一方面，语义有时可能在单个单词上存在巨大差异（可能是否定词，或两个单词的句子位置互换），这很难用静态方法进行解释或评估。

此外，如果您要进行二元判断（是/否表示“语义相似”），BERT实际上使用MRPC（微软研究释义语料库）对此任务进行了基准测试。

google github repo包含了一些关于此的示例调用，请参阅“句子（和句子对）分类任务”一节中的--task_name=MRPC。

谢谢您的帮助。我不熟悉此平台。我将选中“询问”规则又来了。我的糟糕的格式在这里被我抓住了。我将扩展格式检查这篇数据集论文，一个语义相似性的优化Bert arxiv.org/abs/2004.10349 HuggingFace有例子，在MRPC上优化Bert-谢谢你的建议。我知道，但我的任务不是二进制的。我的任务是我有100,00个问题和300个不同项目的说明。我想为每个问题匹配一个项目。检查此包