Text 带有Penn树库标记的NLP POS注释工具

Text 带有Penn树库标记的NLP POS注释工具,text,annotations,nlp,Text,Annotations,Nlp,我有一个语料库,我想注释词类(动词、名词、形容词等)。我正在寻找一个很好的工具,我可以用它来做这件事,但是我有一个要求,我希望它使用与Penn Treebank相同的标记来标记语料库。原因是我想用斯坦福NLP做pos识别 感谢您的帮助 mj你有很多选择;以下是我的想法,按最简单/最不复杂到最复杂的顺序排列: 1) CPAN上的任何模块,尤指。 不确定它有多精确,但它很容易实现,但您必须喜欢Perl 2) 几乎和NLTK(python自然语言工具包)一样简单。安装整个软件包需要一段时间,但编写代码

我有一个语料库,我想注释词类(动词、名词、形容词等)。我正在寻找一个很好的工具,我可以用它来做这件事,但是我有一个要求,我希望它使用与Penn Treebank相同的标记来标记语料库。原因是我想用斯坦福NLP做pos识别

感谢您的帮助


mj

你有很多选择;以下是我的想法,按最简单/最不复杂到最复杂的顺序排列:

1) CPAN上的任何模块,尤指。 不确定它有多精确,但它很容易实现,但您必须喜欢Perl

2) 几乎和NLTK(python自然语言工具包)一样简单。安装整个软件包需要一段时间,但编写代码很容易。NLTK有非常强大的文档和示例;以下是词性标注:

3) 就我个人而言,我倾向于大量使用斯坦福解析器,并且内置了一个很好的pos-tagger。我的网页上有一个与斯坦福系统进行编程交互的示例(在网页上搜索“使用内置标记的简单版本”): 您必须稍微自定义代码,以便只进行标记化/标记,而不进行解析,但这并不太难

4) 管子的负荷有点重。我相信他们合并了斯坦福解析器,但我可能错了


从你所说的(3)如果你想使用stanford解析器,而不仅仅是pos标记器,可能还不错。

你有很多选择;以下是我的想法,按最简单/最不复杂到最复杂的顺序排列:

1) CPAN上的任何模块,尤指。 不确定它有多精确,但它很容易实现,但您必须喜欢Perl

2) 几乎和NLTK(python自然语言工具包)一样简单。安装整个软件包需要一段时间,但编写代码很容易。NLTK有非常强大的文档和示例;以下是词性标注:

3) 就我个人而言,我倾向于大量使用斯坦福解析器,并且内置了一个很好的pos-tagger。我的网页上有一个与斯坦福系统进行编程交互的示例(在网页上搜索“使用内置标记的简单版本”): 您必须稍微自定义代码,以便只进行标记化/标记,而不进行解析,但这并不太难

4) 管子的负荷有点重。我相信他们合并了斯坦福解析器,但我可能错了


根据您的说法(3),如果您想使用stanford解析器,而不仅仅是pos-tagger,那么(3)可能还不错。

您可能想查看或。它们都是基于跨度的注释器,而不是基于标记的注释器,但是如果配置正确,您应该能够双击单词,然后从列表中拾取标记


brat有一个很好的起点,尽管您可能希望从配置的visual.conf中借用部分,其中包括一些Penn Treebank标记的颜色。我对webanno的配置不太熟悉,但由于它是基于brat的,因此可以用同样的方式对其进行自定义。

您可能需要查看或。它们都是基于跨度的注释器,而不是基于标记的注释器,但是如果配置正确,您应该能够双击单词,然后从列表中拾取标记


brat有一个很好的起点,尽管您可能希望从配置的visual.conf中借用部分,其中包括一些Penn Treebank标记的颜色。我对webanno的配置不太熟悉,但由于它是基于brat的,人们可以用同样的方式自定义它。

我认为我的问题可能有误导性。我想自己手动为文档添加注释。我正在寻找一些我可以点击一个单词并选择应用于它的POS标记的东西。问题是,我希望输出使用penn树库标记。例如,“Sally回家了”会变成“Sally回家了”(我的标签错了,因为我还在学习。我想这就是我需要训练斯坦福POS标签机的地方。嗯,我没有使用注释工具的经验,我能提供的最好建议是看看我的问题可能有误导性。我想自己手动注释文档。我正在寻找一些我可以点击一个单词并选择的东西t应用于它的POS标记。问题是我希望输出使用penn treebank标记。例如,“Sally回家”将变成“Sally回家”(我的标签错了,因为我还在学习。我想这就是我需要培训斯坦福POS标签机的地方。嗯,我没有使用注释工具的经验,我能提供的最好建议是