Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ember.js/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Tensorflow 中文需要拼字吗?_Tensorflow_Nlp - Fatal编程技术网

Tensorflow 中文需要拼字吗?

Tensorflow 中文需要拼字吗?,tensorflow,nlp,Tensorflow,Nlp,我想用中国的伯特模型。在tokenization.py中,我喜欢WordpieceTokenizer function(),但我认为不需要为中文使用wordpiece,因为中文的模拟单位是字符 WordpieceTokenizer仅用于英文文本,对吗?自述: 我们对汉语使用基于字符的标记化,对所有其他语言使用基于词条的标记化 但是,从以下方面(增加了重点): 因为中文(以及日文汉字和韩文汉字)没有空格字符,所以在应用WordPiece之前,我们在CJK Unicode范围内的每个字符周围添加空格

我想用中国的伯特模型。在tokenization.py中,我喜欢WordpieceTokenizer function(),但我认为不需要为中文使用wordpiece,因为中文的模拟单位是字符

WordpieceTokenizer仅用于英文文本,对吗?

自述:

我们对汉语使用基于字符的标记化,对所有其他语言使用基于词条的标记化

但是,从以下方面(增加了重点):

因为中文(以及日文汉字和韩文汉字)没有空格字符,所以在应用WordPiece之前,我们在CJK Unicode范围内的每个字符周围添加空格。

所以这个单词大概是在整个句子上运行的,尽管它只对包含非汉字的句子有意义。因此,要按原样运行代码,您需要WordPiece

然而,为了澄清:

  • WordPiece不仅仅适用于英语,它可以用在任何语言上,实际上也可以用在许多语言上
  • 基于单个字符的汉语标记化是否是最佳决策仍存在争议
  • WordPiece在Google之外是不可用的,可以作为替代品使用(尽管我认为BERT代码可能有一个预训练的模型)
自述文件:

我们对汉语使用基于字符的标记化,对所有其他语言使用基于词条的标记化

但是,从以下方面(增加了重点):

因为中文(以及日文汉字和韩文汉字)没有空格字符,所以在应用WordPiece之前,我们在CJK Unicode范围内的每个字符周围添加空格。

所以这个单词大概是在整个句子上运行的,尽管它只对包含非汉字的句子有意义。因此,要按原样运行代码,您需要WordPiece

然而,为了澄清:

  • WordPiece不仅仅适用于英语,它可以用在任何语言上,实际上也可以用在许多语言上
  • 基于单个字符的汉语标记化是否是最佳决策仍存在争议
  • WordPiece在Google之外是不可用的,可以作为替代品使用(尽管我认为BERT代码可能有一个预训练的模型)
什么是“代币”?任何语言的最小单位是什么?=)顺便说一句,WordPiece不是开源的。什么是“令牌”?任何语言的最小单位是什么?=)顺便说一句,WordPiece不是开源的。