Python 如何对已经标记的文件使用StanfordNLP工具(POSTagger和Parser)?

Python 如何对已经标记的文件使用StanfordNLP工具(POSTagger和Parser)?,python,stanford-nlp,pipeline,Python,Stanford Nlp,Pipeline,我有一个标记化文件,我想使用StanfordNLP用POS和依赖项解析标记对其进行注释。 我正在使用具有以下配置的Python脚本: config = { 'processors': 'pos,lemma,depparse', 'lang': 'de', 'pos_model_path': './de_gsd_models/de_gsd_tagger.pt', 'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt', 'lemma_mo

我有一个标记化文件,我想使用StanfordNLP用POS和依赖项解析标记对其进行注释。 我正在使用具有以下配置的Python脚本:

config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'
nlp=stanfordnlp.Pipeline(**config)

doc=nlp(文本)

但是,我收到以下信息:

  • 缺少:{'tokenize'} 为此管道提供的处理器列表无效。请确保每个处理器都满足所有先决条件
是否可以使用Python脚本跳过标记化步骤


提前谢谢

您需要包括
tokenize
处理器,并包括属性
tokenize\u pretokenized
设置为
True
。这将假定文本在空格和换行符分隔的句子上标记。您还可以通过一个字符串列表,每个列表代表一个句子,条目是标记

这里解释如下: