Pytorch 用于用Huggingface从头开始训练BERT语言模型的空白标记器_Pytorch_Transformer_Huggingface Transformers

Pytorch 用于用Huggingface从头开始训练BERT语言模型的空白标记器

pytorch

Pytorch 用于用Huggingface从头开始训练BERT语言模型的空白标记器,pytorch,transformer,huggingface-transformers,Pytorch,Transformer,Huggingface Transformers,我正在尝试使用新的语言从零开始训练一个BERT语言模型。为此，我需要构建一个标记器，该标记器只基于空格标记文本数据，而不基于其他内容。我知道Huggingface中有多个音调调整器（如BPE，WordPiece）可以为语言模型产生良好的效果，但对于我的用例，我只想基于空格标记文本输入，并生成不应该在单词前面有任何特殊字符即“##”的语音例如：输入大家好！你好吗？应该被调到：大家好，，大家好，你怎么样？，你怎么样？我检查了文档，但没有找到实现这一点的方法为什么不干脆说“大家好！你好吗？'.

我正在尝试使用新的语言从零开始训练一个BERT语言模型。为此，我需要构建一个标记器，该标记器只基于空格标记文本数据，而不基于其他内容。我知道Huggingface中有多个音调调整器（如

BPE

，

WordPiece

）可以为语言模型产生良好的效果，但对于我的用例，我只想基于空格标记文本输入，并生成不应该在单词前面有任何特殊字符即“##”的语音

例如：输入

大家好！你好吗？

应该被调到：

大家好，，大家好，你怎么样？
，你怎么样？

我检查了文档，但没有找到实现这一点的方法
 为什么不干脆说“大家好！你好吗？'.split（）
？我理解，但是这个。split
将在管道中走向何方？您是指管道？请发布管道的代码。您可能需要一个至少带有标记化方法的包装类。这里已经提供了代码：最简单的解决方案是，您只需创建一个类，将其添加到管道中，然后阅读错误消息，以查看管道需要哪些方法。为什么不只是“您好，大家好！”！你好吗？'.split（）
？我理解，但是这个。split
将在管道中走向何方？您是指管道？请发布管道的代码。您可能需要一个至少带有标记化方法的包装类。这里已经提供了代码：最简单的解决方案是，您只需创建一个类，将其添加到管道中，然后读取错误消息，以查看管道所需的方法。