Word2vec 为什么skipgram模型比CBOW需要更多的时间

Word2vec 为什么skipgram模型比CBOW需要更多的时间,word2vec,word-embedding,Word2vec,Word Embedding,为什么skipgram模型比CBOW模型花费更多的时间。我使用相同的参数(向量大小和窗口大小)训练模型。跳过gram方法需要更多的计算 具体地,考虑一个单独的“目标词”,在任何一边都有4个单词的上下文窗口。 在CBOW中,所有8个相邻单词的向量一起平均,然后用作算法预测神经网络的输入。网络向前运行,并检查其预测目标词的成功性。然后发生反向传播:所有神经网络连接值——包括8个贡献词向量——都被轻推,以使预测稍微好一点 但是,请注意,8字窗口和一个目标字只需要一个正向传播和一个反向传播,8个值的初始

为什么skipgram模型比CBOW模型花费更多的时间。我使用相同的参数(向量大小和窗口大小)训练模型。

跳过gram方法需要更多的计算

具体地,考虑一个单独的“目标词”,在任何一边都有4个单词的上下文窗口。 在CBOW中,所有8个相邻单词的向量一起平均,然后用作算法预测神经网络的输入。网络向前运行,并检查其预测目标词的成功性。然后发生反向传播:所有神经网络连接值——包括8个贡献词向量——都被轻推,以使预测稍微好一点

但是,请注意,8字窗口和一个目标字只需要一个正向传播和一个反向传播,8个值的初始平均值和8个向量的最终误差校正分布都是相对快速/简单的操作

现在考虑跳过克。8个上下文窗口词中的每一个依次作为神经网络的输入提供,向前检查目标词的预测效果,然后向后校正。虽然未进行平均/分割,但神经网络操作的数量是其他操作的8倍。因此,需要更多的净计算和更多的运行时间

注意,额外的努力/时间可能会通过提高最终评估的向量质量而得到回报。是否以及在多大程度上取决于您的具体目标和语料库