Word2vec 为什么skipgram模型比CBOW需要更多的时间_Word2vec_Word Embedding

Word2vec 为什么skipgram模型比CBOW需要更多的时间

Word2vec 为什么skipgram模型比CBOW需要更多的时间,word2vec,word-embedding,Word2vec,Word Embedding,为什么skipgram模型比CBOW模型花费更多的时间。我使用相同的参数（向量大小和窗口大小）训练模型。跳过gram方法需要更多的计算具体地，考虑一个单独的“目标词”，在任何一边都有4个单词的上下文窗口。在CBOW中，所有8个相邻单词的向量一起平均，然后用作算法预测神经网络的输入。网络向前运行，并检查其预测目标词的成功性。然后发生反向传播：所有神经网络连接值——包括8个贡献词向量——都被轻推，以使预测稍微好一点但是，请注意，8字窗口和一个目标字只需要一个正向传播和一个反向传播，8个值的初始

为什么skipgram模型比CBOW模型花费更多的时间。我使用相同的参数（向量大小和窗口大小）训练模型。

跳过gram方法需要更多的计算

具体地，考虑一个单独的“目标词”，在任何一边都有4个单词的上下文窗口。在CBOW中，所有8个相邻单词的向量一起平均，然后用作算法预测神经网络的输入。网络向前运行，并检查其预测目标词的成功性。然后发生反向传播：所有神经网络连接值——包括8个贡献词向量——都被轻推，以使预测稍微好一点

但是，请注意，8字窗口和一个目标字只需要一个正向传播和一个反向传播，8个值的初始平均值和8个向量的最终误差校正分布都是相对快速/简单的操作

现在考虑跳过克。8个上下文窗口词中的每一个依次作为神经网络的输入提供，向前检查目标词的预测效果，然后向后校正。虽然未进行平均/分割，但神经网络操作的数量是其他操作的8倍。因此，需要更多的净计算和更多的运行时间

注意，额外的努力/时间可能会通过提高最终评估的向量质量而得到回报。是否以及在多大程度上取决于您的具体目标和语料库