Python 针对特定域微调Bert(无监督)

Python 针对特定域微调Bert(无监督),python,deep-learning,neural-network,nlp,bert-language-model,Python,Deep Learning,Neural Network,Nlp,Bert Language Model,我想对与特定领域相关的文本(在我的例子中是与工程相关的)进行微调。培训应该是无人监督的,因为我没有任何标签或任何东西。这是可能的吗?实际上,您希望继续对来自特定领域的文本进行预培训。在这种情况下,您要做的是继续将模型训练为蒙面语言模型,但要基于特定于域的数据 您可以使用Huggingface的《变形金刚》中的脚本。在继续预培训时,我是否还需要扩展中的词汇表?我之所以这么问,是因为我想训练伯特的课文中有非常具体的关于发电厂的术语。你可以。在best vocab文件中有很多插槽,您可以在其中放入特定

我想对与特定领域相关的文本(在我的例子中是与工程相关的)进行微调。培训应该是无人监督的,因为我没有任何标签或任何东西。这是可能的吗?

实际上,您希望继续对来自特定领域的文本进行预培训。在这种情况下,您要做的是继续将模型训练为蒙面语言模型,但要基于特定于域的数据


您可以使用Huggingface的《变形金刚》中的脚本。

在继续预培训时,我是否还需要扩展中的词汇表?我之所以这么问,是因为我想训练伯特的课文中有非常具体的关于发电厂的术语。你可以。在best vocab文件中有很多插槽,您可以在其中放入特定于域的单词。