Tensorflow 中文需要拼字吗？_Tensorflow_Nlp

Tensorflow 中文需要拼字吗？

tensorflow nlp

Tensorflow 中文需要拼字吗？,tensorflow,nlp,Tensorflow,Nlp,我想用中国的伯特模型。在tokenization.py中，我喜欢WordpieceTokenizer function（），但我认为不需要为中文使用wordpiece，因为中文的模拟单位是字符 WordpieceTokenizer仅用于英文文本，对吗？自述：我们对汉语使用基于字符的标记化，对所有其他语言使用基于词条的标记化但是，从以下方面（增加了重点）：因为中文（以及日文汉字和韩文汉字）没有空格字符，所以在应用WordPiece之前，我们在CJK Unicode范围内的每个字符周围添加空格

我想用中国的伯特模型。在tokenization.py中，我喜欢WordpieceTokenizer function（），但我认为不需要为中文使用wordpiece，因为中文的模拟单位是字符

WordpieceTokenizer仅用于英文文本，对吗？

自述：

我们对汉语使用基于字符的标记化，对所有其他语言使用基于词条的标记化

但是，从以下方面（增加了重点）：

因为中文（以及日文汉字和韩文汉字）没有空格字符，所以在应用WordPiece之前，我们在CJK Unicode范围内的每个字符周围添加空格。

所以这个单词大概是在整个句子上运行的，尽管它只对包含非汉字的句子有意义。因此，要按原样运行代码，您需要WordPiece

然而，为了澄清：

WordPiece不仅仅适用于英语，它可以用在任何语言上，实际上也可以用在许多语言上
基于单个字符的汉语标记化是否是最佳决策仍存在争议
WordPiece在Google之外是不可用的，可以作为替代品使用（尽管我认为BERT代码可能有一个预训练的模型）

自述文件：

我们对汉语使用基于字符的标记化，对所有其他语言使用基于词条的标记化

但是，从以下方面（增加了重点）：

因为中文（以及日文汉字和韩文汉字）没有空格字符，所以在应用WordPiece之前，我们在CJK Unicode范围内的每个字符周围添加空格。

所以这个单词大概是在整个句子上运行的，尽管它只对包含非汉字的句子有意义。因此，要按原样运行代码，您需要WordPiece

然而，为了澄清：

WordPiece不仅仅适用于英语，它可以用在任何语言上，实际上也可以用在许多语言上
基于单个字符的汉语标记化是否是最佳决策仍存在争议
WordPiece在Google之外是不可用的，可以作为替代品使用（尽管我认为BERT代码可能有一个预训练的模型）

什么是“代币”？任何语言的最小单位是什么？=）顺便说一句，WordPiece不是开源的。什么是“令牌”？任何语言的最小单位是什么？=）顺便说一句，WordPiece不是开源的。