Nlp 最新的预训练多语言单词嵌入
是否有任何最新的预训练的多语言单词嵌入(多种语言联合映射到同一向量空间) 我已经看过以下内容,但它们不符合我的需要:Nlp 最新的预训练多语言单词嵌入,nlp,word-embedding,pre-trained-model,fasttext,bert-language-model,Nlp,Word Embedding,Pre Trained Model,Fasttext,Bert Language Model,是否有任何最新的预训练的多语言单词嵌入(多种语言联合映射到同一向量空间) 我已经看过以下内容,但它们不符合我的需要: FastText/MUSE():这个似乎太旧了,而且单词向量没有使用子单词/词条信息 LASER():我现在使用这个,它使用子词信息(通过BPE),但是,建议不要将它用于单词嵌入,因为它是为了嵌入句子() BERT Multilanguage(BERT base Multilanguage uncased in):它是上下文化嵌入,可以用来嵌入句子,似乎不擅长嵌入没有上下文的单词
关键字示例:“football”我认为使用嵌入此应用程序(通过经验学习)构建模型可能有点误导。因为如果有两家公司,football ltd和soccer ltd,模型可能会说两者都是一场比赛,这可能是不对的。 一种方法是删除多余的单词,即从Facebook corporation中删除corporation,从Facebook ltd中删除corporation,然后尝试匹配 另一种方法是使用deepmatcher,它使用基于单词上下文的深度学习模糊匹配。 如果句子相似性是您想要遵循的主要方法,那么STSBenchmark算法可能值得探索:
Sent2vec和InferSent使用Fasttext,但在STSBenchmark上似乎有很好的效果检查这是否可以:
如果您对整词嵌入没意见:
(这两个都有点旧,但放在这里以防对某人有所帮助)
如果您同意上下文嵌入:
您甚至可以尝试使用XLM-R或mBERT等多语言转换器实现的(句子片段标记化的)非上下文输入单词嵌入,而不是输出上下文嵌入。(不确定它将如何运行)谢谢您的回复,但我并没有尝试将公司名称与公司名称进行匹配,而是尝试将公司名称与特定主题(例如,本例中的足球)进行匹配。此外,我已经做了预处理,例如在应用embdings之前从名称中删除company types(ltd)。我将查看您的链接,看看是否有我可以尝试的内容。
单词向量没有使用子单词/词条信息。
-不,基于fasttext的单词嵌入是使用n-grams子单词创建的。请参阅:您是对的,大多数基于fasttext的单词嵌入都使用子单词,特别是那些可以通过“fasttext.load_model”加载的单词,但是,我所指的()只具有“text”格式,并且没有使用子单词信息。抱歉,没有看到您的链接指向“对齐的单词向量”: