Machine learning BERT的表现比word2vec差_Machine Learning_Deep Learning_Word2vec_Unsupervised Learning_Bert Language Model

Machine learning BERT的表现比word2vec差

machine-learning deep-learning

Machine learning BERT的表现比word2vec差,machine-learning,deep-learning,word2vec,unsupervised-learning,bert-language-model,Machine Learning,Deep Learning,Word2vec,Unsupervised Learning,Bert Language Model,我试图用BERT来解决文档排序问题。我的任务很简单。我必须对输入文档进行相似性排序。这里唯一的问题是我没有标签，所以更多的是定性分析我正在尝试一系列文档表示技术——word2vec、para2vec和BERT 对于伯特，我遇到了图书馆。我微调了bert-base无基础模型，有大约150000个文档。我运行了5个时代，批大小为16，最大序列长度为128。然而，如果我比较Bert表示和word2vec表示的性能，出于某种原因word2vec现在对我来说表现更好。对于BERT，我使用最后四层来获得表

我试图用BERT来解决文档排序问题。我的任务很简单。我必须对输入文档进行相似性排序。这里唯一的问题是我没有标签，所以更多的是定性分析

我正在尝试一系列文档表示技术——word2vec、para2vec和BERT

对于伯特，我遇到了图书馆。我微调了bert-base无基础模型，有大约150000个文档。我运行了5个时代，批大小为16，最大序列长度为128。然而，如果我比较Bert表示和word2vec表示的性能，出于某种原因word2vec现在对我来说表现更好。对于BERT，我使用最后四层来获得表示

我不太清楚为什么微调模型不起作用。我读了这篇文章，还有其他的链接说，当对分类任务进行微调时，BERT表现良好。然而，由于我没有标签，我调整了它，因为它在报纸上做的-在一个无监督的方式

而且，我的文件在长度上有很大差异。所以我现在就把它们逐句发送出去。最后，我必须对单词嵌入进行平均，以获得句子嵌入。有没有更好的方法？我还读到-有不同的方式汇集单词嵌入以获得固定嵌入。想知道有没有比较哪种池技术更有效

我们将非常感谢您对培训BERT更好或更好的共享方法的任何帮助

您可以查看以下内容：

BERT甚至有一个特殊的[CLS]标记，其输出嵌入用于分类任务，但对于其他任务来说，它仍然是一个糟糕的输入序列嵌入。[Reimers&Gurevych，2019年]

句子BERT，在[Reimers&Gurevych，2019]中提出，并伴随着Python实现，旨在通过使用连体和三重网络结构来调整BERT体系结构，以导出语义上有意义的句子嵌入，可以使用余弦相似性进行比较

您是否尝试从头开始或从预先培训的检查点对模型进行预培训？