Nlp 带句子块的未知标记

Nlp 带句子块的未知标记,nlp,tokenize,Nlp,Tokenize,我有一个巨大的文本语料库,我训练过句子。我想将此文本标记化,并将其传递给word2vec,以便学习单词嵌入 但是,当我运行sp.EncodeAsPieces(text)时,如果存在一个不在sp vocab中的单词,它不会返回。相反,它保持了单词的原样。运行word2vec时会出现问题,因为这些令牌不会被视为 到目前为止,我找到的唯一解决方案是使用sp.EncodeAsIds,它将文本标记为数字,将未知单词标记为0。但我失去了编码图片的可读性。有任何方法可以使用EncodeSpes和标记单词,而不

我有一个巨大的文本语料库,我训练过句子。我想将此文本标记化,并将其传递给word2vec,以便学习单词嵌入

但是,当我运行sp.EncodeAsPieces(text)时,如果存在一个不在sp vocab中的单词,它不会返回。相反,它保持了单词的原样。运行word2vec时会出现问题,因为这些令牌不会被视为


到目前为止,我找到的唯一解决方案是使用sp.EncodeAsIds,它将文本标记为数字,将未知单词标记为0。但我失去了编码图片的可读性。有任何方法可以使用EncodeSpes和标记单词,而不是在Voab中使用

生成索引然后转换回标记呢?是的,这是我目前所做的,但如果存在,我想直接方法会更快。那么生成索引然后转换回标记,怎么样?是的,这是我目前所做的,但我认为如果存在直接方法,速度会更快。