Text 带有Penn树库标记的NLP POS注释工具_Text_Annotations_Nlp

Text 带有Penn树库标记的NLP POS注释工具

text nlp

Text 带有Penn树库标记的NLP POS注释工具,text,annotations,nlp,Text,Annotations,Nlp,我有一个语料库，我想注释词类（动词、名词、形容词等）。我正在寻找一个很好的工具，我可以用它来做这件事，但是我有一个要求，我希望它使用与Penn Treebank相同的标记来标记语料库。原因是我想用斯坦福NLP做pos识别感谢您的帮助 mj你有很多选择；以下是我的想法，按最简单/最不复杂到最复杂的顺序排列： 1） CPAN上的任何模块，尤指。不确定它有多精确，但它很容易实现，但您必须喜欢Perl 2）几乎和NLTK（python自然语言工具包）一样简单。安装整个软件包需要一段时间，但编写代码

我有一个语料库，我想注释词类（动词、名词、形容词等）。我正在寻找一个很好的工具，我可以用它来做这件事，但是我有一个要求，我希望它使用与Penn Treebank相同的标记来标记语料库。原因是我想用斯坦福NLP做pos识别

感谢您的帮助

你有很多选择；以下是我的想法，按最简单/最不复杂到最复杂的顺序排列：

1） CPAN上的任何模块，尤指。不确定它有多精确，但它很容易实现，但您必须喜欢Perl

2）几乎和NLTK（python自然语言工具包）一样简单。安装整个软件包需要一段时间，但编写代码很容易。NLTK有非常强大的文档和示例；以下是词性标注：

3）就我个人而言，我倾向于大量使用斯坦福解析器，并且内置了一个很好的pos-tagger。我的网页上有一个与斯坦福系统进行编程交互的示例（在网页上搜索“使用内置标记的简单版本”）：您必须稍微自定义代码，以便只进行标记化/标记，而不进行解析，但这并不太难

4）管子的负荷有点重。我相信他们合并了斯坦福解析器，但我可能错了

从你所说的（3）如果你想使用stanford解析器，而不仅仅是pos标记器，可能还不错。

你有很多选择；以下是我的想法，按最简单/最不复杂到最复杂的顺序排列：

1） CPAN上的任何模块，尤指。不确定它有多精确，但它很容易实现，但您必须喜欢Perl

2）几乎和NLTK（python自然语言工具包）一样简单。安装整个软件包需要一段时间，但编写代码很容易。NLTK有非常强大的文档和示例；以下是词性标注：

4）管子的负荷有点重。我相信他们合并了斯坦福解析器，但我可能错了

根据您的说法（3），如果您想使用stanford解析器，而不仅仅是pos-tagger，那么（3）可能还不错。

您可能想查看或。它们都是基于跨度的注释器，而不是基于标记的注释器，但是如果配置正确，您应该能够双击单词，然后从列表中拾取标记

brat有一个很好的起点，尽管您可能希望从配置的visual.conf中借用部分，其中包括一些Penn Treebank标记的颜色。我对webanno的配置不太熟悉，但由于它是基于brat的，因此可以用同样的方式对其进行自定义。

您可能需要查看或。它们都是基于跨度的注释器，而不是基于标记的注释器，但是如果配置正确，您应该能够双击单词，然后从列表中拾取标记

brat有一个很好的起点，尽管您可能希望从配置的visual.conf中借用部分，其中包括一些Penn Treebank标记的颜色。我对webanno的配置不太熟悉，但由于它是基于brat的，人们可以用同样的方式自定义它。

我认为我的问题可能有误导性。我想自己手动为文档添加注释。我正在寻找一些我可以点击一个单词并选择应用于它的POS标记的东西。问题是，我希望输出使用penn树库标记。例如，“Sally回家了”会变成“Sally回家了”（我的标签错了，因为我还在学习。我想这就是我需要训练斯坦福POS标签机的地方。嗯，我没有使用注释工具的经验，我能提供的最好建议是看看我的问题可能有误导性。我想自己手动注释文档。我正在寻找一些我可以点击一个单词并选择的东西t应用于它的POS标记。问题是我希望输出使用penn treebank标记。例如，“Sally回家”将变成“Sally回家”（我的标签错了，因为我还在学习。我想这就是我需要培训斯坦福POS标签机的地方。嗯，我没有使用注释工具的经验，我能提供的最好建议是