Nlp 带句子块的未知标记
我有一个巨大的文本语料库,我训练过句子。我想将此文本标记化,并将其传递给word2vec,以便学习单词嵌入 但是,当我运行sp.EncodeAsPieces(text)时,如果存在一个不在sp vocab中的单词,它不会返回Nlp 带句子块的未知标记,nlp,tokenize,Nlp,Tokenize,我有一个巨大的文本语料库,我训练过句子。我想将此文本标记化,并将其传递给word2vec,以便学习单词嵌入 但是,当我运行sp.EncodeAsPieces(text)时,如果存在一个不在sp vocab中的单词,它不会返回。相反,它保持了单词的原样。运行word2vec时会出现问题,因为这些令牌不会被视为 到目前为止,我找到的唯一解决方案是使用sp.EncodeAsIds,它将文本标记为数字,将未知单词标记为0。但我失去了编码图片的可读性。有任何方法可以使用EncodeSpes和标记单词,而不
到目前为止,我找到的唯一解决方案是使用sp.EncodeAsIds,它将文本标记为数字,将未知单词标记为0。但我失去了编码图片的可读性。有任何方法可以使用EncodeSpes和标记单词,而不是在Voab中使用