Stanford nlp stanfordnlp-训练空间将单词分隔为斯坦福NER模型生成的单个标记

Stanford nlp stanfordnlp-训练空间将单词分隔为斯坦福NER模型生成的单个标记,stanford-nlp,Stanford Nlp,我已经阅读了这里给出的详细描述-根据.prop文件基于标记的输入文件训练模型。但是文章说- You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems. 我的文本语料库中有一些空格分隔的单词,这些单词都组合成一个标记,而不是单个单词。例如,“莱特州立大学”是一个单一的象征,尽管莱特、州立

我已经阅读了这里给出的详细描述-根据.prop文件基于标记的输入文件训练模型。但是文章说-

You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems.

我的文本语料库中有一些空格分隔的单词,这些单词都组合成一个标记,而不是单个单词。例如,“莱特州立大学”是一个单一的象征,尽管莱特、州立大学和大学是单独的实体。我想用上面的标记作为单个标记生成模型。文章说,生成模型的输入文件应该以制表符分隔的单词形式给出,第一列是标记,第二列是标签。如何实现这一点?

通常,NER训练数据采用自然语言句子的形式,其中每个标记都有一个NER标记。你可能有10000句或更多的句子

例如:“他就读于莱特州立大学。”

应代表为:

He   O
attended   O
Wright   SCHOOL
State    SCHOOL
University   SCHOOL
.   O
如果你没有句子,你只是有一个字符串列表,这些字符串应该以某种方式标记,那么使用RegexNER就更有意义了

您可以在此处找到有关如何使用RegexNER的详细说明: