Nlp 最新的预训练多语言单词嵌入_Nlp_Word Embedding_Pre Trained Model_Fasttext_Bert Language Model

Nlp 最新的预训练多语言单词嵌入

nlp

Nlp 最新的预训练多语言单词嵌入,nlp,word-embedding,pre-trained-model,fasttext,bert-language-model,Nlp,Word Embedding,Pre Trained Model,Fasttext,Bert Language Model,是否有任何最新的预训练的多语言单词嵌入（多种语言联合映射到同一向量空间）我已经看过以下内容，但它们不符合我的需要： FastText/MUSE（）：这个似乎太旧了，而且单词向量没有使用子单词/词条信息 LASER（）：我现在使用这个，它使用子词信息（通过BPE），但是，建议不要将它用于单词嵌入，因为它是为了嵌入句子（） BERT Multilanguage（BERT base Multilanguage uncased in）：它是上下文化嵌入，可以用来嵌入句子，似乎不擅长嵌入没有上下文的单词

是否有任何最新的预训练的多语言单词嵌入（多种语言联合映射到同一向量空间）
我已经看过以下内容，但它们不符合我的需要：

FastText/MUSE（）：这个似乎太旧了，而且单词向量没有使用子单词/词条信息

LASER（）：我现在使用这个，它使用子词信息（通过BPE），但是，建议不要将它用于单词嵌入，因为它是为了嵌入句子（）

BERT Multilanguage（BERT base Multilanguage uncased in）：它是上下文化嵌入，可以用来嵌入句子，似乎不擅长嵌入没有上下文的单词
以下是我试图解决的问题：
我有一个公司名称列表，可以是任何语言（主要是英语），我有一个英语关键字列表，以衡量给定公司名称与关键字的接近程度。现在我有了一个简单的关键字匹配解决方案，但我想使用预训练的嵌入来改进它。正如您在以下示例中所看到的，有几个挑战：

关键字和品牌名称并没有用空格分隔（现在我使用“wordsegment”包将单词分割成子单词），所以嵌入子单词信息应该会有很大帮助

关键字列表不广泛，公司名称可以使用不同的语言（这就是为什么我要使用嵌入，因为“足球”接近“足球”）
公司名称示例：“cheapfootball有限公司”、“批发商足球有限公司”、“足球运动员有限公司”、“足球商店有限公司”

关键字示例：“football”
我认为使用嵌入此应用程序（通过经验学习）构建模型可能有点误导。因为如果有两家公司，football ltd和soccer ltd，模型可能会说两者都是一场比赛，这可能是不对的。一种方法是删除多余的单词，即从Facebook corporation中删除corporation，从Facebook ltd中删除corporation，然后尝试匹配
另一种方法是使用deepmatcher，它使用基于单词上下文的深度学习模糊匹配。
如果句子相似性是您想要遵循的主要方法，那么STSBenchmark算法可能值得探索：

Sent2vec和InferSent使用Fasttext，但在STSBenchmark上似乎有很好的效果
检查这是否可以：

如果您对整词嵌入没意见：
（这两个都有点旧，但放在这里以防对某人有所帮助）

如果您同意上下文嵌入：

您甚至可以尝试使用XLM-R或mBERT等多语言转换器实现的（句子片段标记化的）非上下文输入单词嵌入，而不是输出上下文嵌入。（不确定它将如何运行）
谢谢您的回复，但我并没有尝试将公司名称与公司名称进行匹配，而是尝试将公司名称与特定主题（例如，本例中的足球）进行匹配。此外，我已经做了预处理，例如在应用embdings之前从名称中删除company types（ltd）。我将查看您的链接，看看是否有我可以尝试的内容。
单词向量没有使用子单词/词条信息。
-不，基于fasttext的单词嵌入是使用n-grams子单词创建的。请参阅：您是对的，大多数基于fasttext的单词嵌入都使用子单词，特别是那些可以通过“fasttext.load_model”加载的单词，但是，我所指的（）只具有“text”格式，并且没有使用子单词信息。抱歉，没有看到您的链接指向“对齐的单词向量”：