Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/arduino/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 最新的预训练多语言单词嵌入_Nlp_Word Embedding_Pre Trained Model_Fasttext_Bert Language Model - Fatal编程技术网

Nlp 最新的预训练多语言单词嵌入

Nlp 最新的预训练多语言单词嵌入,nlp,word-embedding,pre-trained-model,fasttext,bert-language-model,Nlp,Word Embedding,Pre Trained Model,Fasttext,Bert Language Model,是否有任何最新的预训练的多语言单词嵌入(多种语言联合映射到同一向量空间) 我已经看过以下内容,但它们不符合我的需要: FastText/MUSE():这个似乎太旧了,而且单词向量没有使用子单词/词条信息 LASER():我现在使用这个,它使用子词信息(通过BPE),但是,建议不要将它用于单词嵌入,因为它是为了嵌入句子() BERT Multilanguage(BERT base Multilanguage uncased in):它是上下文化嵌入,可以用来嵌入句子,似乎不擅长嵌入没有上下文的单词

是否有任何最新的预训练的多语言单词嵌入(多种语言联合映射到同一向量空间)

我已经看过以下内容,但它们不符合我的需要:

  • FastText/MUSE():这个似乎太旧了,而且单词向量没有使用子单词/词条信息
  • LASER():我现在使用这个,它使用子词信息(通过BPE),但是,建议不要将它用于单词嵌入,因为它是为了嵌入句子()
  • BERT Multilanguage(BERT base Multilanguage uncased in):它是上下文化嵌入,可以用来嵌入句子,似乎不擅长嵌入没有上下文的单词
  • 以下是我试图解决的问题:

    我有一个公司名称列表,可以是任何语言(主要是英语),我有一个英语关键字列表,以衡量给定公司名称与关键字的接近程度。现在我有了一个简单的关键字匹配解决方案,但我想使用预训练的嵌入来改进它。正如您在以下示例中所看到的,有几个挑战:

  • 关键字和品牌名称并没有用空格分隔(现在我使用“wordsegment”包将单词分割成子单词),所以嵌入子单词信息应该会有很大帮助
  • 关键字列表不广泛,公司名称可以使用不同的语言(这就是为什么我要使用嵌入,因为“足球”接近“足球”)
  • 公司名称示例:“cheapfootball有限公司”、“批发商足球有限公司”、“足球运动员有限公司”、“足球商店有限公司”


    关键字示例:“football”

    我认为使用嵌入此应用程序(通过经验学习)构建模型可能有点误导。因为如果有两家公司,football ltd和soccer ltd,模型可能会说两者都是一场比赛,这可能是不对的。 一种方法是删除多余的单词,即从Facebook corporation中删除corporation,从Facebook ltd中删除corporation,然后尝试匹配

    另一种方法是使用deepmatcher,它使用基于单词上下文的深度学习模糊匹配。

    如果句子相似性是您想要遵循的主要方法,那么STSBenchmark算法可能值得探索:


    Sent2vec和InferSent使用Fasttext,但在STSBenchmark上似乎有很好的效果

    检查这是否可以:


    如果您对整词嵌入没意见:
    (这两个都有点旧,但放在这里以防对某人有所帮助)


    如果您同意上下文嵌入:



    您甚至可以尝试使用XLM-R或mBERT等多语言转换器实现的(句子片段标记化的)非上下文输入单词嵌入,而不是输出上下文嵌入。(不确定它将如何运行)

    谢谢您的回复,但我并没有尝试将公司名称与公司名称进行匹配,而是尝试将公司名称与特定主题(例如,本例中的足球)进行匹配。此外,我已经做了预处理,例如在应用embdings之前从名称中删除company types(ltd)。我将查看您的链接,看看是否有我可以尝试的内容。
    单词向量没有使用子单词/词条信息。
    -不,基于fasttext的单词嵌入是使用n-grams子单词创建的。请参阅:您是对的,大多数基于fasttext的单词嵌入都使用子单词,特别是那些可以通过“fasttext.load_model”加载的单词,但是,我所指的()只具有“text”格式,并且没有使用子单词信息。抱歉,没有看到您的链接指向“对齐的单词向量”: