Nlp 如何在BERT上进行语言模型训练_Nlp_Pytorch_Huggingface Transformers_Bert Language Model

Nlp 如何在BERT上进行语言模型训练

nlp pytorch

Nlp 如何在BERT上进行语言模型训练,nlp,pytorch,huggingface-transformers,bert-language-model,Nlp,Pytorch,Huggingface Transformers,Bert Language Model,我想在目标语料库上训练伯特。我正在看这个。他们正在使用.raw文件作为培训数据。如果我有培训数据的.txt文件，我如何使用它们的实现？该.raw仅表示它们使用原始版本的WikiText，它们是包含原始文本的常规文本文件：我们使用的是原始WikiText-2，在标记化之前没有替换任何标记 “数据文件”选项的说明中还指出它们是文本文件。发件人：列车数据文件：可选[str]=字段默认值=无，元数据={help:输入的培训数据文件是文本文件。} 因此，您可以只指定文本文件。您知道文本文件的格式吗

我想在目标语料库上训练伯特。我正在看这个。他们正在使用.raw文件作为培训数据。如果我有培训数据的.txt文件，我如何使用它们的实现？

该.raw仅表示它们使用原始版本的WikiText，它们是包含原始文本的常规文本文件：

我们使用的是原始WikiText-2，在标记化之前没有替换任何标记

“数据文件”选项的说明中还指出它们是文本文件。发件人：

列车数据文件：可选[str]=字段默认值=无，元数据={help:输入的培训数据文件是文本文件。}

因此，您可以只指定文本文件。

您知道文本文件的格式吗？旧版本是每行一句，单独文档之间一行空行。这里是一样的吗？我认为LMs从来没有使用过这种格式，那是用于其他任务的。看起来你有两种可能，要么文本是连续的，分成大小相等的块，要么通过设置标志，每行有一个序列。哦，我明白了。只是想检查一下，如果我的主要目标是从预先训练的BERT模型中获取句子嵌入，然后再从目标语料库中对未标记文本进行进一步训练，那么这是最好的方法吗？另外，当你说“顺序”时，这是指句子还是一组句子/文档？是的，这听起来是对未标记文本进行微调的最佳选择。在这种情况下，顺序就是一个句子，我只是说顺序，因为它不一定是一个完整的句子，也可以是它的一部分，或者是两个你想放在一起的句子，明白了。谢谢你的帮助。那么文件之间就没有区别了？这会影响训练吗？或者，由于这些分隔比连续句子之间的分隔发生的频率要低，这又有什么关系呢？