Stanford nlp 斯坦福·内尔:我如何创建一个可以使用和测试的新培训集?

Stanford nlp 斯坦福·内尔:我如何创建一个可以使用和测试的新培训集?,stanford-nlp,training-data,Stanford Nlp,Training Data,据我所知,要创建一个培训文件,您需要将您的单词放入一个文本文件中。然后在每个单词后,添加空格或制表符以及标签(如PERS、LOC等) 我还将一个示例属性文件中的文本复制到一个word pad中。如何将这些内容输入到gz文件中,以便输入分类器并使用 请引导我。我是一个新手,对技术相当不熟练。我建议您查看NLTK文档,了解有关训练解析器的更多信息 . 现在,您似乎想要训练CRFClassizer(而不是解析器!);为此,您可能需要检查此常见问题解答您的培训文件(例如培训数据.tsv)应如下所示: I

据我所知,要创建一个培训文件,您需要将您的单词放入一个文本文件中。然后在每个单词后,添加空格或制表符以及标签(如PERS、LOC等)

我还将一个示例属性文件中的文本复制到一个word pad中。如何将这些内容输入到gz文件中,以便输入分类器并使用


请引导我。我是一个新手,对技术相当不熟练。

我建议您查看NLTK文档,了解有关训练解析器的更多信息 . 现在,您似乎想要训练CRFClassizer(而不是解析器!);为此,您可能需要检查此常见问题解答您的培训文件(例如
培训数据.tsv
)应如下所示:

I   O
drove   O
to  O
Vancouver   LOCATION
BC  LOCATION
yesterday   O
trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...
其中
O
表示“外部”,如在非命名实体中

其中列之间的空间是一个
选项卡

您不会将它们放在
ser.gz
文件中。ser.gz文件是由训练过程创建的分类器模型

要训练分类器运行:

java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties
其中
my classifier.properties
如下所示:

I   O
drove   O
to  O
Vancouver   LOCATION
BC  LOCATION
yesterday   O
trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...