Python 如何对已经标记的文件使用StanfordNLP工具（POSTagger和Parser）？_Python_Stanford Nlp_Pipeline

Python 如何对已经标记的文件使用StanfordNLP工具（POSTagger和Parser）？

python stanford-nlp

Python 如何对已经标记的文件使用StanfordNLP工具（POSTagger和Parser）？,python,stanford-nlp,pipeline,Python,Stanford Nlp,Pipeline,我有一个标记化文件，我想使用StanfordNLP用POS和依赖项解析标记对其进行注释。我正在使用具有以下配置的Python脚本： config = { 'processors': 'pos,lemma,depparse', 'lang': 'de', 'pos_model_path': './de_gsd_models/de_gsd_tagger.pt', 'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt', 'lemma_mo

我有一个标记化文件，我想使用StanfordNLP用POS和依赖项解析标记对其进行注释。我正在使用具有以下配置的Python脚本：

config = {
'processors': 'pos,lemma,depparse',
'lang': 'de',
'pos_model_path': './de_gsd_models/de_gsd_tagger.pt',
'pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt',
'lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt',
'depparse_model_path': './de_gsd_models/de_gsd_parser.pt',
'depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'

nlp=stanfordnlp.Pipeline（**config）

doc=nlp（文本）

但是，我收到以下信息：

缺少：{'tokenize'} 为此管道提供的处理器列表无效。请确保每个处理器都满足所有先决条件

是否可以使用Python脚本跳过标记化步骤

提前谢谢

您需要包括

tokenize

处理器，并包括属性

tokenize\u pretokenized

设置为

True

。这将假定文本在空格和换行符分隔的句子上标记。您还可以通过一个字符串列表，每个列表代表一个句子，条目是标记

这里解释如下：