Nlp 为了文本相似性，如何比较单词嵌入？_Nlp_Multilingual_Similarity_Bert Language Model

Nlp 为了文本相似性，如何比较单词嵌入？

nlp

Nlp 为了文本相似性，如何比较单词嵌入？,nlp,multilingual,similarity,bert-language-model,Nlp,Multilingual,Similarity,Bert Language Model,我想计算法语句子之间的文本相似度，我使用的是来自句子变形金刚软件包的预训练模型我想使用一个有效的单词嵌入模型来嵌入我的句子，然后计算它们之间的文本相似度。我不知道如何在下面的四个模型中进行选择，因为我有未标记的数据这是否可行？它们是否是嵌入性能的度量 model1=SentenceTransformer（'distiluse-base-multilingual-cased-v1'） “”“distiluse-base-multilingual-cased-v1：多语言通用句的多语言知识提炼版

我想计算法语句子之间的文本相似度，我使用的是来自句子变形金刚软件包的预训练模型

我想使用一个有效的单词嵌入模型来嵌入我的句子，然后计算它们之间的文本相似度。我不知道如何在下面的四个模型中进行选择，因为我有未标记的数据

这是否可行？它们是否是嵌入性能的度量

model1=SentenceTransformer（'distiluse-base-multilingual-cased-v1'）
“”“distiluse-base-multilingual-cased-v1：多语言通用句的多语言知识提炼版
编码器。支持15种语言：阿拉伯语、汉语、荷兰语、英语、法语、德语、意大利语、韩语、波兰语、，
葡萄牙语、俄语、西班牙语、土耳其语。v2在其他语言上的表现比上述语言更出色
model2=句子转换器（'reporthrase-xlm-r-multilingual-v1'）
“”“reporthrase-xlm-r-multilingual-v1-reporthrase-distilroberta-base-v1的多语言版本，并行培训
50多种语言的数据。”“”
model3=语句转换器（'stsb-xlm-r-multilingual'）
“”“stsb-xlm-r-multilingual:生成与stsb-bert基模型类似的嵌入。在并行数据上进行训练，以便
50多种语言
model4=句子转换器（'quora-distilbert-multilingual'）
“”“quora distilbert multilingual-quora distilbert base的多语种版本。使用并行数据对
50多种语言

是什么阻止您在培训集中手动标记少数样本并比较这些样本的性能？我有这个想法，但我不是该领域的专家，所以我想知道是否有内部措施可以做到这一点，谢谢您的建议我想如果您不介意的话，您可以嵌入一组固定的句子，并将生成的嵌入与t-SNE或PCA（在前3个维度上）进行比较，并检查是否紧密嵌入了“相似”的句子。这绝对不是理想的，也是一种非常固执己见的方法，这就是为什么我不想把它作为一个答案。我想你在Stackoverflow这个问题上不会得到任何令人满意的答案，我担心，因为它太偏颇了……这是个好主意，我可以试试，谢谢。也许我会在Research Gate上发布这个问题！谢谢