Python 2.7 如何构建新的标记集

Python 2.7 如何构建新的标记集,python-2.7,nlp,nltk,Python 2.7,Nlp,Nltk,我有一个语言的语料库,以前没有进行过词性标注,也就是说,它没有现有的标记集。 除了用记事本之类的文字处理器手动标记外,是否有任何自动方法开始标记像我的语料库这样的新的未标记集?。 谢谢。这取决于标记集的详细程度。10-12基本词性(名词、形容词、外来词、标点符号)或更详细的词性(区分动词形式、代词类型、性别、数字、时态等) 前者几乎是通用的(参见或谷歌的通用标签集) 后者要复杂得多,我们对此有充分的了解。简言之,我们有一个标记集模板,然后修改它(删除/添加类别和值)以适合特定的语言 关于注释:同

我有一个语言的语料库,以前没有进行过词性标注,也就是说,它没有现有的标记集。 除了用记事本之类的文字处理器手动标记外,是否有任何自动方法开始标记像我的语料库这样的新的未标记集?。
谢谢。

这取决于标记集的详细程度。10-12基本词性(名词、形容词、外来词、标点符号)或更详细的词性(区分动词形式、代词类型、性别、数字、时态等)

前者几乎是通用的(参见或谷歌的通用标签集)

后者要复杂得多,我们对此有充分的了解。简言之,我们有一个标记集模板,然后修改它(删除/添加类别和值)以适合特定的语言


关于注释:同样,这取决于-如果您有一个小标记集,您可以手动为每个单词分配一个标记,比如在记事本或一些简单的GUI中(我们使用,但可能有更好的)。如果您有一个包含数百或数千个标记的标记集,那么您可能需要更好的支持。最好的方法是使用一个(可能是过度生成的)形态分析器和一个GUI,允许从分析器建议的选项中进行选择

有一个非常好的GUI用于手动注释。

语料库使用什么语言?此外,您使用的术语“标记集”有点不标准。标记集是一种语言的所有词类。例如,英语通常使用宾语标记集进行分析,这意味着语料库中的每个单词都被分配了宾语标记集中的一个标记。因为语言学家经常不同意一种语言的词性,所以每种语言可以有多个标记集。谢谢你的更正。标记集。我正确地认为您想要一种自动为语料库中的每个标记分配词性的方法,而不是创建标记集的方法?是的!考虑到这个语料库之前没有进行过词性标注。这就像从头开始的过程。谢谢,谢谢,吉尔卡。我可以和你联系进行更多的讨论吗?因为看起来你的经验对我有帮助。你推荐的资源真的让我大开眼界。是的,请使用我网页(purl.org/jh)上的电子邮件提醒我,如果我在一周左右内没有回复,我可能要到周一才会回复。