Tensorflow 中文需要拼字吗?
我想用中国的伯特模型。在tokenization.py中,我喜欢WordpieceTokenizer function(),但我认为不需要为中文使用wordpiece,因为中文的模拟单位是字符 WordpieceTokenizer仅用于英文文本,对吗?自述: 我们对汉语使用基于字符的标记化,对所有其他语言使用基于词条的标记化 但是,从以下方面(增加了重点): 因为中文(以及日文汉字和韩文汉字)没有空格字符,所以在应用WordPiece之前,我们在CJK Unicode范围内的每个字符周围添加空格。 所以这个单词大概是在整个句子上运行的,尽管它只对包含非汉字的句子有意义。因此,要按原样运行代码,您需要WordPiece 然而,为了澄清:Tensorflow 中文需要拼字吗?,tensorflow,nlp,Tensorflow,Nlp,我想用中国的伯特模型。在tokenization.py中,我喜欢WordpieceTokenizer function(),但我认为不需要为中文使用wordpiece,因为中文的模拟单位是字符 WordpieceTokenizer仅用于英文文本,对吗?自述: 我们对汉语使用基于字符的标记化,对所有其他语言使用基于词条的标记化 但是,从以下方面(增加了重点): 因为中文(以及日文汉字和韩文汉字)没有空格字符,所以在应用WordPiece之前,我们在CJK Unicode范围内的每个字符周围添加空格
- WordPiece不仅仅适用于英语,它可以用在任何语言上,实际上也可以用在许多语言上
- 基于单个字符的汉语标记化是否是最佳决策仍存在争议
- WordPiece在Google之外是不可用的,可以作为替代品使用(尽管我认为BERT代码可能有一个预训练的模型)
- WordPiece不仅仅适用于英语,它可以用在任何语言上,实际上也可以用在许多语言上
- 基于单个字符的汉语标记化是否是最佳决策仍存在争议
- WordPiece在Google之外是不可用的,可以作为替代品使用(尽管我认为BERT代码可能有一个预训练的模型)