Python 斯帕西伯特词典

Python 斯帕西伯特词典,python,nlp,spacy,spacy-pytorch-transformers,Python,Nlp,Spacy,Spacy Pytorch Transformers,我试图访问spaCy BERT字典,但我从模型中收到奇怪的输出。例如,对于en_core\u web\u lg模型,我可以提取约130万个这样的代币 nlp = spacy.load("en_core_web_lg") tokens = [t for t in nlp.vocab] 当我对en_trf_bertbaseuncased_lg模型做同样的操作时,我只得到478个代币 nlp = spacy.load("en_trf_bertbaseuncased_lg") tokens = [

我试图访问spaCy BERT字典,但我从模型中收到奇怪的输出。例如,对于
en_core\u web\u lg
模型,我可以提取约130万个这样的代币

nlp = spacy.load("en_core_web_lg") 
tokens = [t for t in nlp.vocab]
当我对
en_trf_bertbaseuncased_lg
模型做同样的操作时,我只得到478个代币

nlp = spacy.load("en_trf_bertbaseuncased_lg") 
tokens = [t for t in nlp.vocab]

而根据标准,应该有约30k代币。有没有一种方法可以通过nlp.vocab或通过?

访问它们?我对“en”等标准型号也有类似的问题。有趣的是,长度完全相同

import spacy
nlp = spacy.load("en")
len([t for t in nlp.vocab])
478
事实证明,像“en”这样的模型不包含实向量(参见)。所以我猜伯特也是这样