Python 斯帕西伯特词典_Python_Nlp_Spacy_Spacy Pytorch Transformers

Python 斯帕西伯特词典

python nlp

Python 斯帕西伯特词典,python,nlp,spacy,spacy-pytorch-transformers,Python,Nlp,Spacy,Spacy Pytorch Transformers,我试图访问spaCy BERT字典，但我从模型中收到奇怪的输出。例如，对于en_core\u web\u lg模型，我可以提取约130万个这样的代币 nlp = spacy.load("en_core_web_lg") tokens = [t for t in nlp.vocab] 当我对en_trf_bertbaseuncased_lg模型做同样的操作时，我只得到478个代币 nlp = spacy.load("en_trf_bertbaseuncased_lg") tokens = [

我试图访问spaCy BERT字典，但我从模型中收到奇怪的输出。例如，对于

en_core\u web\u lg

模型，我可以提取约130万个这样的代币

nlp = spacy.load("en_core_web_lg") 
tokens = [t for t in nlp.vocab]

当我对

en_trf_bertbaseuncased_lg

模型做同样的操作时，我只得到478个代币

nlp = spacy.load("en_trf_bertbaseuncased_lg") 
tokens = [t for t in nlp.vocab]

而根据标准，应该有约30k代币。有没有一种方法可以通过nlp.vocab或通过？

访问它们？我对“en”等标准型号也有类似的问题。有趣的是，长度完全相同

import spacy
nlp = spacy.load("en")
len([t for t in nlp.vocab])
478

事实证明，像“en”这样的模型不包含实向量（参见）。所以我猜伯特也是这样