Nlp 词条标记化模型

Nlp 词条标记化模型,nlp,tokenize,huggingface-transformers,bert-language-model,Nlp,Tokenize,Huggingface Transformers,Bert Language Model,有人能告诉我wordpiece模型到底是如何工作的吗?我很难理解WordPieck模型到底是如何工作的。我理解BPE是基于根据最高频率对进行合并的。在网上挖了几个小时,读了报纸之后。有人提到,在wordpiece中,我们根据我们创建的语言模型的最大可能性进行最终合并。 这个语言模型是如何创建的?它是由对的概率等于对的计数/对的总计数还是什么? 我的理解是,我们想要测量哪个令牌对减去单独的令牌是最大的,比如如果我们有“de”=9,“d”=15“e”=12和“th”=10,“t”=12“h”=12,

有人能告诉我wordpiece模型到底是如何工作的吗?我很难理解WordPieck模型到底是如何工作的。我理解BPE是基于根据最高频率对进行合并的。在网上挖了几个小时,读了报纸之后。有人提到,在wordpiece中,我们根据我们创建的语言模型的最大可能性进行最终合并。 这个语言模型是如何创建的?它是由对的概率等于对的计数/对的总计数还是什么? 我的理解是,我们想要测量哪个令牌对减去单独的令牌是最大的,比如如果我们有“de”=9,“d”=15“e”=12和“th”=10,“t”=12“h”=12,那么我们选择合并令牌“t”和“h”作为其10-24>9-27。我说得对吗?请有人纠正我