Java Mallet-CRF序列分类训练数据格式

Java Mallet-CRF序列分类训练数据格式,java,nlp,mallet,crf,Java,Nlp,Mallet,Crf,我正在尝试使用Mallet库训练一个CRF序列模型,但我遗漏了一些重要信息。我在图书馆里找到了一个例子 但是,该示例没有说明输入训练数据的格式,因此我不知道如何重新创建它 Mallet在上确实有一个数据导入示例,但具体的示例似乎是针对文档分类,而不是我的用例CRF序列模型 我试着把输入的训练数据用在 以及表格中的测试数据 CAPITAL Al slept here 然而,根据输出日志,它似乎不是正确的格式。例如,日志中的一行是INFO:testing-P� r0

我正在尝试使用Mallet库训练一个CRF序列模型,但我遗漏了一些重要信息。我在图书馆里找到了一个例子 但是,该示例没有说明输入训练数据的格式,因此我不知道如何重新创建它

Mallet在上确实有一个数据导入示例,但具体的示例似乎是针对文档分类,而不是我的用例CRF序列模型

我试着把输入的训练数据用在

以及表格中的测试数据

CAPITAL Al
        slept
        here
然而,根据输出日志,它似乎不是正确的格式。例如,日志中的一行是
INFO:testing-P� r0f1�
sleep
不是标签-标签应该是
名词
非名词


因此,如果有人能告诉我培训数据应该采用什么格式,那就太好了。

您链接到的代码示例已注释掉。您的代码是否可能试图在测试文件上进行训练?这将导致
sleep
看起来像一个标签,因为它位于行的末尾,这将解释错误


为了记录在案,我使用您上面给出的测试数据(使用命令行,而不是代码示例)尝试了这个示例,它工作了,因此测试/训练格式似乎正常。

您确定在运行测试时没有
--train true
标志吗?@iamwhoiam我没有通过命令行运行它。我正在使用我引用的代码示例您链接到的代码示例中有一行引用了
training
文件。您的代码是否可能试图在测试文件上进行训练?这将导致
sleep
看起来像一个标签,因为它在这行的末尾…@polm23啊,我想你是对的-当然测试数据必须与训练数据的格式相同-不确定我在想什么:)如果你想添加这个作为答案,我很乐意接受
CAPITAL Al
        slept
        here