Stanford nlp stanfordnlp-训练空间将单词分隔为斯坦福NER模型生成的单个标记_Stanford Nlp

Stanford nlp stanfordnlp-训练空间将单词分隔为斯坦福NER模型生成的单个标记

stanford-nlp

Stanford nlp stanfordnlp-训练空间将单词分隔为斯坦福NER模型生成的单个标记,stanford-nlp,Stanford Nlp,我已经阅读了这里给出的详细描述-根据.prop文件基于标记的输入文件训练模型。但是文章说- You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems. 我的文本语料库中有一些空格分隔的单词，这些单词都组合成一个标记，而不是单个单词。例如，“莱特州立大学”是一个单一的象征，尽管莱特、州立

我已经阅读了这里给出的详细描述-根据.prop文件基于标记的输入文件训练模型。但是文章说-

You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems.

我的文本语料库中有一些空格分隔的单词，这些单词都组合成一个标记，而不是单个单词。例如，“莱特州立大学”是一个单一的象征，尽管莱特、州立大学和大学是单独的实体。我想用上面的标记作为单个标记生成模型。文章说，生成模型的输入文件应该以制表符分隔的单词形式给出，第一列是标记，第二列是标签。如何实现这一点？

通常，NER训练数据采用自然语言句子的形式，其中每个标记都有一个NER标记。你可能有10000句或更多的句子

例如：“他就读于莱特州立大学。”

应代表为：

He   O
attended   O
Wright   SCHOOL
State    SCHOOL
University   SCHOOL
.   O

如果你没有句子，你只是有一个字符串列表，这些字符串应该以某种方式标记，那么使用RegexNER就更有意义了

您可以在此处找到有关如何使用RegexNER的详细说明：