Machine learning BERT的表现比word2vec差

Machine learning BERT的表现比word2vec差,machine-learning,deep-learning,word2vec,unsupervised-learning,bert-language-model,Machine Learning,Deep Learning,Word2vec,Unsupervised Learning,Bert Language Model,我试图用BERT来解决文档排序问题。我的任务很简单。我必须对输入文档进行相似性排序。这里唯一的问题是我没有标签,所以更多的是定性分析 我正在尝试一系列文档表示技术——word2vec、para2vec和BERT 对于伯特,我遇到了图书馆。我微调了bert-base无基础模型,有大约150000个文档。我运行了5个时代,批大小为16,最大序列长度为128。然而,如果我比较Bert表示和word2vec表示的性能,出于某种原因word2vec现在对我来说表现更好。对于BERT,我使用最后四层来获得表

我试图用BERT来解决文档排序问题。我的任务很简单。我必须对输入文档进行相似性排序。这里唯一的问题是我没有标签,所以更多的是定性分析

我正在尝试一系列文档表示技术——word2vec、para2vec和BERT

对于伯特,我遇到了图书馆。我微调了bert-base无基础模型,有大约150000个文档。我运行了5个时代,批大小为16,最大序列长度为128。然而,如果我比较Bert表示和word2vec表示的性能,出于某种原因word2vec现在对我来说表现更好。对于BERT,我使用最后四层来获得表示

我不太清楚为什么微调模型不起作用。我读了这篇文章,还有其他的链接说,当对分类任务进行微调时,BERT表现良好。然而,由于我没有标签,我调整了它,因为它在报纸上做的-在一个无监督的方式

而且,我的文件在长度上有很大差异。所以我现在就把它们逐句发送出去。最后,我必须对单词嵌入进行平均,以获得句子嵌入。有没有更好的方法?我还读到-有不同的方式汇集单词嵌入以获得固定嵌入。想知道有没有比较哪种池技术更有效

我们将非常感谢您对培训BERT更好或更好的共享方法的任何帮助

您可以查看以下内容:

BERT甚至有一个特殊的[CLS]标记,其输出嵌入用于分类任务,但对于其他任务来说,它仍然是一个糟糕的输入序列嵌入。[Reimers&Gurevych,2019年]

句子BERT,在[Reimers&Gurevych,2019]中提出,并伴随着Python实现,旨在通过使用连体和三重网络结构来调整BERT体系结构,以导出语义上有意义的句子嵌入,可以使用余弦相似性进行比较


您是否尝试从头开始或从预先培训的检查点对模型进行预培训?