Stanford nlp 斯坦福·内尔:我如何创建一个可以使用和测试的新培训集?
据我所知,要创建一个培训文件,您需要将您的单词放入一个文本文件中。然后在每个单词后,添加空格或制表符以及标签(如PERS、LOC等) 我还将一个示例属性文件中的文本复制到一个word pad中。如何将这些内容输入到gz文件中,以便输入分类器并使用Stanford nlp 斯坦福·内尔:我如何创建一个可以使用和测试的新培训集?,stanford-nlp,training-data,Stanford Nlp,Training Data,据我所知,要创建一个培训文件,您需要将您的单词放入一个文本文件中。然后在每个单词后,添加空格或制表符以及标签(如PERS、LOC等) 我还将一个示例属性文件中的文本复制到一个word pad中。如何将这些内容输入到gz文件中,以便输入分类器并使用 请引导我。我是一个新手,对技术相当不熟练。我建议您查看NLTK文档,了解有关训练解析器的更多信息 . 现在,您似乎想要训练CRFClassizer(而不是解析器!);为此,您可能需要检查此常见问题解答您的培训文件(例如培训数据.tsv)应如下所示: I
请引导我。我是一个新手,对技术相当不熟练。我建议您查看NLTK文档,了解有关训练解析器的更多信息 . 现在,您似乎想要训练CRFClassizer(而不是解析器!);为此,您可能需要检查此常见问题解答您的培训文件(例如
培训数据.tsv
)应如下所示:
I O
drove O
to O
Vancouver LOCATION
BC LOCATION
yesterday O
trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...
其中O
表示“外部”,如在非命名实体中
其中列之间的空间是一个选项卡
您不会将它们放在ser.gz
文件中。ser.gz文件是由训练过程创建的分类器模型
要训练分类器运行:
java -cp ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop my-classifier.properties
其中my classifier.properties
如下所示:
I O
drove O
to O
Vancouver LOCATION
BC LOCATION
yesterday O
trainFile = training-data.tsv
serializeTo = my-classification-model.ser.gz
map = word=0,answer=1
...