Machine learning 如何使用BERT在一大块自定义文本中训练单词嵌入?

Machine learning 如何使用BERT在一大块自定义文本中训练单词嵌入?,machine-learning,nlp,data-science,word-embedding,bert-language-model,Machine Learning,Nlp,Data Science,Word Embedding,Bert Language Model,我在这里找到了一个很棒的教程,可以为自定义句子生成上下文化的单词嵌入: 然而,它并没有告诉我如何在更大的段落中训练这一点。我有大约1000个代币,我想让模型学习。如何调整链接的代码并将其应用于整个段落,以便每个单词从整个文档中学习上下文?您链接到的教程当前使用Huggingface Transformers。根据作者的说法。如果你想处理更长的句子,你需要从头开始训练你自己 请注意,一般来说,为长文档获得良好的嵌入仍然是一个活跃的研究领域,仅仅通过更改配置文件中的一些数字不会获得好的结果

我在这里找到了一个很棒的教程,可以为自定义句子生成上下文化的单词嵌入:


然而,它并没有告诉我如何在更大的段落中训练这一点。我有大约1000个代币,我想让模型学习。如何调整链接的代码并将其应用于整个段落,以便每个单词从整个文档中学习上下文?

您链接到的教程当前使用Huggingface Transformers。根据作者的说法。如果你想处理更长的句子,你需要从头开始训练你自己

请注意,一般来说,为长文档获得良好的嵌入仍然是一个活跃的研究领域,仅仅通过更改配置文件中的一些数字不会获得好的结果