Nlp 为了文本相似性,如何比较单词嵌入?

Nlp 为了文本相似性,如何比较单词嵌入?,nlp,multilingual,similarity,bert-language-model,Nlp,Multilingual,Similarity,Bert Language Model,我想计算法语句子之间的文本相似度,我使用的是来自句子变形金刚软件包的预训练模型 我想使用一个有效的单词嵌入模型来嵌入我的句子,然后计算它们之间的文本相似度。我不知道如何在下面的四个模型中进行选择,因为我有未标记的数据 这是否可行?它们是否是嵌入性能的度量 model1=SentenceTransformer('distiluse-base-multilingual-cased-v1') “”“distiluse-base-multilingual-cased-v1:多语言通用句的多语言知识提炼版

我想计算法语句子之间的文本相似度,我使用的是来自句子变形金刚软件包的预训练模型

我想使用一个有效的单词嵌入模型来嵌入我的句子,然后计算它们之间的文本相似度。我不知道如何在下面的四个模型中进行选择,因为我有未标记的数据

这是否可行?它们是否是嵌入性能的度量

model1=SentenceTransformer('distiluse-base-multilingual-cased-v1')
“”“distiluse-base-multilingual-cased-v1:多语言通用句的多语言知识提炼版
编码器。支持15种语言:阿拉伯语、汉语、荷兰语、英语、法语、德语、意大利语、韩语、波兰语、,
葡萄牙语、俄语、西班牙语、土耳其语。v2在其他语言上的表现比上述语言更出色
model2=句子转换器('reporthrase-xlm-r-multilingual-v1')
“”“reporthrase-xlm-r-multilingual-v1-reporthrase-distilroberta-base-v1的多语言版本,并行培训
50多种语言的数据。”“”
model3=语句转换器('stsb-xlm-r-multilingual')
“”“stsb-xlm-r-multilingual:生成与stsb-bert基模型类似的嵌入。在并行数据上进行训练,以便
50多种语言
model4=句子转换器('quora-distilbert-multilingual')
“”“quora distilbert multilingual-quora distilbert base的多语种版本。使用并行数据对
50多种语言

是什么阻止您在培训集中手动标记少数样本并比较这些样本的性能?我有这个想法,但我不是该领域的专家,所以我想知道是否有内部措施可以做到这一点,谢谢您的建议我想如果您不介意的话,您可以嵌入一组固定的句子,并将生成的嵌入与t-SNE或PCA(在前3个维度上)进行比较,并检查是否紧密嵌入了“相似”的句子。这绝对不是理想的,也是一种非常固执己见的方法,这就是为什么我不想把它作为一个答案。我想你在Stackoverflow这个问题上不会得到任何令人满意的答案,我担心,因为它太偏颇了……这是个好主意,我可以试试,谢谢。也许我会在Research Gate上发布这个问题!谢谢