Nlp spaCy token.tag uu完整列表_Nlp_Pos Tagger_Spacy

Nlp spaCy token.tag uu完整列表

nlp

Nlp spaCy token.tag uu完整列表,nlp,pos-tagger,spacy,Nlp,Pos Tagger,Spacy,inspaCy的官方文件如下：一个细粒度、更详细的标记，表示单词类和标记的一些基本形态信息。这些标记主要被设计为后续模型的良好特性，特别是语法分析器。它们依赖于语言和树库。对标记器进行训练以预测这些细粒度的标记，然后使用映射表将它们简化为粗粒度的.pos标记但是它没有列出所有可用的标签和每个标签的解释。在哪里可以找到它？最后我在spaCy的源代码中找到了它：。这就解释了不同标签的含义。以下是标签列表： TAG_MAP = [ ".", ",",

spaCy

的官方文件如下：

一个细粒度、更详细的标记，表示单词类和标记的一些基本形态信息。这些标记主要被设计为后续模型的良好特性，特别是语法分析器。它们依赖于语言和树库。对标记器进行训练以预测这些细粒度的标记，然后使用映射表将它们简化为粗粒度的.pos标记

但是它没有列出所有可用的标签和每个标签的解释。在哪里可以找到它？

最后我在

spaCy

的源代码中找到了它：。这就解释了不同标签的含义。

以下是标签列表：

TAG_MAP = [
    ".",        
    ",",        
    "-LRB-",    
    "-RRB-",    
    "``",       
    "\"\"",     
    "''",       
    ",",        
    "$",        
    "#",        
    "AFX",      
    "CC",       
    "CD",       
    "DT",       
    "EX",       
    "FW",       
    "HYPH",     
    "IN",       
    "JJ",       
    "JJR",      
    "JJS",      
    "LS",       
    "MD",       
    "NIL",      
    "NN",       
    "NNP",      
    "NNPS",     
    "NNS",   
    "PDT",   
    "POS",   
    "PRP",   
    "PRP$",  
    "RB",    
    "RBR",   
    "RBS",   
    "RP",    
    "SP",    
    "SYM",   
    "TO",    
    "UH",    
    "VB",    
    "VBD",  
    "VBG",  
    "VBN",  
    "VBP",  
    "VBZ",  
    "WDT",  
    "WP",   
    "WP$",  
    "WRB",  
    "ADD",  
    "NFP",   
    "GW",    
    "XX",    
    "BES",   
    "HVS",   
    "_SP",   
]

标记.标记的可用值是特定于语言的。这里的语言不是指英语或葡萄牙语，我指的是“英语核心网”或“新闻核心网”。换句话说，它们是特定于语言模型的，并且在标记映射中定义，标记映射是可定制和可训练的。如果您不自定义它，它将是该语言的默认标记映射
在撰写本答案时，列出了所有经过预培训的模型及其标签方案
现在，我来解释一下。如果您正在使用英语或德语文本，那么您很幸运！您可以在github上使用或访问其完整列表。如果您使用的是其他语言，token.pos
值始终是具有通用依赖性的值，并且无论如何都会起作用
最后，如果您正在使用其他语言，为了获得标签的完整解释，您必须在页面中列出的您感兴趣的模型的源代码中查找标签。例如，对于葡萄牙语，我必须跟踪用于训练模型的葡萄牙语UD Bosque语料库中标记的解释。
下面的链接列出了标记和POS-Spacy使用的列表

通用词性标签
英式
德文
这个链接到今天已经死了，到我想的东西的链接是相同的数据。你有没有找到一种从spacy以编程方式获取这个地图的方法？回答我自己的评论-Tokenizer
有正确的方法-nlp.Tokenizer.vocab.mophy.tag_map
这是最新的链接：谢谢你在这里列出这个列表。X
是否属于任何词类，或者它只是被视为外来的
或未知的
？