Nlp spaCy token.tag uu完整列表
inNlp spaCy token.tag uu完整列表,nlp,pos-tagger,spacy,Nlp,Pos Tagger,Spacy,inspaCy的官方文件如下: 一个细粒度、更详细的标记,表示单词类和标记的一些基本形态信息。这些标记主要被设计为后续模型的良好特性,特别是语法分析器。它们依赖于语言和树库。对标记器进行训练以预测这些细粒度的标记,然后使用映射表将它们简化为粗粒度的.pos标记 但是它没有列出所有可用的标签和每个标签的解释。在哪里可以找到它?最后我在spaCy的源代码中找到了它:。这就解释了不同标签的含义。以下是标签列表: TAG_MAP = [ ".", ",",
spaCy
的官方文件如下:
一个细粒度、更详细的标记,表示单词类和标记的一些基本形态信息。这些标记主要被设计为后续模型的良好特性,特别是语法分析器。它们依赖于语言和树库。对标记器进行训练以预测这些细粒度的标记,然后使用映射表将它们简化为粗粒度的.pos标记
但是它没有列出所有可用的标签和每个标签的解释。在哪里可以找到它?最后我在
spaCy
的源代码中找到了它:。这就解释了不同标签的含义。以下是标签列表:
TAG_MAP = [
".",
",",
"-LRB-",
"-RRB-",
"``",
"\"\"",
"''",
",",
"$",
"#",
"AFX",
"CC",
"CD",
"DT",
"EX",
"FW",
"HYPH",
"IN",
"JJ",
"JJR",
"JJS",
"LS",
"MD",
"NIL",
"NN",
"NNP",
"NNPS",
"NNS",
"PDT",
"POS",
"PRP",
"PRP$",
"RB",
"RBR",
"RBS",
"RP",
"SP",
"SYM",
"TO",
"UH",
"VB",
"VBD",
"VBG",
"VBN",
"VBP",
"VBZ",
"WDT",
"WP",
"WP$",
"WRB",
"ADD",
"NFP",
"GW",
"XX",
"BES",
"HVS",
"_SP",
]
标记.标记的可用值是特定于语言的。这里的语言不是指英语或葡萄牙语,我指的是“英语核心网”或“新闻核心网”。换句话说,它们是特定于语言模型的,并且在标记映射中定义,标记映射是可定制和可训练的。如果您不自定义它,它将是该语言的默认标记映射
在撰写本答案时,列出了所有经过预培训的模型及其标签方案
现在,我来解释一下。如果您正在使用英语或德语文本,那么您很幸运!您可以在github上使用或访问其完整列表。如果您使用的是其他语言,token.pos
值始终是具有通用依赖性的值,并且无论如何都会起作用
最后,如果您正在使用其他语言,为了获得标签的完整解释,您必须在页面中列出的您感兴趣的模型的源代码中查找标签。例如,对于葡萄牙语,我必须跟踪用于训练模型的葡萄牙语UD Bosque语料库中标记的解释。下面的链接列出了标记和POS-Spacy使用的列表
通用词性标签
英式
德文
这个链接到今天已经死了,到我想的东西的链接是相同的数据。你有没有找到一种从spacy以编程方式获取这个地图的方法?回答我自己的评论-Tokenizer
有正确的方法-nlp.Tokenizer.vocab.mophy.tag_map
这是最新的链接:谢谢你在这里列出这个列表。X
是否属于任何词类,或者它只是被视为外来的
或未知的
?