Nlp 如何在BERT上进行语言模型训练

Nlp 如何在BERT上进行语言模型训练,nlp,pytorch,huggingface-transformers,bert-language-model,Nlp,Pytorch,Huggingface Transformers,Bert Language Model,我想在目标语料库上训练伯特。我正在看这个。 他们正在使用.raw文件作为培训数据。如果我有培训数据的.txt文件,我如何使用它们的实现?该.raw仅表示它们使用原始版本的WikiText,它们是包含原始文本的常规文本文件: 我们使用的是原始WikiText-2,在标记化之前没有替换任何标记 “数据文件”选项的说明中还指出它们是文本文件。发件人: 列车数据文件:可选[str]=字段 默认值=无,元数据={help:输入的培训数据文件是文本文件。} 因此,您可以只指定文本文件。您知道文本文件的格式吗

我想在目标语料库上训练伯特。我正在看这个。 他们正在使用.raw文件作为培训数据。如果我有培训数据的.txt文件,我如何使用它们的实现?

该.raw仅表示它们使用原始版本的WikiText,它们是包含原始文本的常规文本文件:

我们使用的是原始WikiText-2,在标记化之前没有替换任何标记

“数据文件”选项的说明中还指出它们是文本文件。发件人:

列车数据文件:可选[str]=字段 默认值=无,元数据={help:输入的培训数据文件是文本文件。}
因此,您可以只指定文本文件。

您知道文本文件的格式吗?旧版本是每行一句,单独文档之间一行空行。这里是一样的吗?我认为LMs从来没有使用过这种格式,那是用于其他任务的。看起来你有两种可能,要么文本是连续的,分成大小相等的块,要么通过设置标志,每行有一个序列。哦,我明白了。只是想检查一下,如果我的主要目标是从预先训练的BERT模型中获取句子嵌入,然后再从目标语料库中对未标记文本进行进一步训练,那么这是最好的方法吗?另外,当你说“顺序”时,这是指句子还是一组句子/文档?是的,这听起来是对未标记文本进行微调的最佳选择。在这种情况下,顺序就是一个句子,我只是说顺序,因为它不一定是一个完整的句子,也可以是它的一部分,或者是两个你想放在一起的句子,明白了。谢谢你的帮助。那么文件之间就没有区别了?这会影响训练吗?或者,由于这些分隔比连续句子之间的分隔发生的频率要低,这又有什么关系呢?