Pytorch 用于用Huggingface从头开始训练BERT语言模型的空白标记器

Pytorch 用于用Huggingface从头开始训练BERT语言模型的空白标记器,pytorch,transformer,huggingface-transformers,Pytorch,Transformer,Huggingface Transformers,我正在尝试使用新的语言从零开始训练一个BERT语言模型。为此,我需要构建一个标记器,该标记器只基于空格标记文本数据,而不基于其他内容。我知道Huggingface中有多个音调调整器(如BPE,WordPiece)可以为语言模型产生良好的效果,但对于我的用例,我只想基于空格标记文本输入,并生成不应该在单词前面有任何特殊字符即“##”的语音 例如:输入大家好!你好吗?应该被调到: 大家好,,大家好,你怎么样?,你怎么样? 我检查了文档,但没有找到实现这一点的方法 为什么不干脆说“大家好!你好吗?'.

我正在尝试使用新的语言从零开始训练一个BERT语言模型。为此,我需要构建一个标记器,该标记器只基于空格标记文本数据,而不基于其他内容。我知道Huggingface中有多个音调调整器(如
BPE
WordPiece
)可以为语言模型产生良好的效果,但对于我的用例,我只想基于空格标记文本输入,并生成不应该在单词前面有任何特殊字符即“##”的语音

例如:输入
大家好!你好吗?
应该被调到:

大家好,
大家好
你怎么样?
你怎么样?


我检查了文档,但没有找到实现这一点的方法

为什么不干脆说“大家好!你好吗?'.split()
?我理解,但是这个
。split
将在管道中走向何方?您是指管道?请发布管道的代码。您可能需要一个至少带有标记化方法的包装类。这里已经提供了代码:最简单的解决方案是,您只需创建一个类,将其添加到管道中,然后阅读错误消息,以查看管道需要哪些方法。为什么不只是
“您好,大家好!”!你好吗?'.split()
?我理解,但是这个
。split
将在管道中走向何方?您是指管道?请发布管道的代码。您可能需要一个至少带有标记化方法的包装类。这里已经提供了代码:最简单的解决方案是,您只需创建一个类,将其添加到管道中,然后读取错误消息,以查看管道所需的方法。