Stanford nlp 如何结合不同的嵌入';从不同的算法生成的,比如Word2vec,GLOVE,BERT?

Stanford nlp 如何结合不同的嵌入';从不同的算法生成的,比如Word2vec,GLOVE,BERT?,stanford-nlp,word2vec,word-embedding,bert-language-model,Stanford Nlp,Word2vec,Word Embedding,Bert Language Model,我想知道如何最好地组合我从word2vec、GLOVE或BERT等不同算法生成的不同嵌入以生成最终嵌入。组合多个生成方法的向量的一个简单方法是将它们连接起来。也就是说,如果一个方法中有一个300维向量表示单词'apple',另一个方法中有另一个300维向量表示该单词,则将这两个向量连接成一个600维向量 但是,你为什么要这么做?你确定那会有帮助吗?在将其作为惯例采用之前,您应该在一个小试验中明确测试这些额外步骤是否值得复杂化 例如,Word2vec和Glove在模型上非常相似——你可能会发现,花

我想知道如何最好地组合我从word2vec、GLOVE或BERT等不同算法生成的不同嵌入以生成最终嵌入。

组合多个生成方法的向量的一个简单方法是将它们连接起来。也就是说,如果一个方法中有一个300维向量表示单词
'apple'
,另一个方法中有另一个300维向量表示该单词,则将这两个向量连接成一个600维向量

但是,你为什么要这么做?你确定那会有帮助吗?在将其作为惯例采用之前,您应该在一个小试验中明确测试这些额外步骤是否值得复杂化


例如,Word2vec和Glove在模型上非常相似——你可能会发现,花更多时间将一种方法调整为一个更大的向量,而不是尝试将它们混合在一起,这样做更简单、更好。

基本上,Word2vec正朝着Doc2vec的方向发展,我实际使用Doc2vec来生成句子级别的嵌入。因此,我的目标是从上述算法中找出更好的针对每个句子的嵌入。例如,我喜欢苹果,苹果对你的健康非常有益。因此,每种算法都根据其性质生成其句子级嵌入。我真正想从这些算法中找出最好的嵌入。像sent1一样,doc2vec从所有其他算法中产生最佳嵌入。因此,我选择该嵌入,sent2手套给出最佳结果并得到该嵌入。最后,得到最终的最佳嵌入矩阵,进一步用于聚类目的,将同类句子分组到特定的聚类中。