Stanford nlp 关于创建斯坦福CoreNLP培训模型的问题

Stanford nlp 关于创建斯坦福CoreNLP培训模型的问题,stanford-nlp,sentiment-analysis,training-data,scoring,Stanford Nlp,Sentiment Analysis,Training Data,Scoring,我一直在与斯坦福大学的coreNLP合作,对我掌握的一些数据进行情绪分析,我正在创建一个培训模型。我知道我们可以使用以下命令创建培训模型: java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz 我知道train.txt文件中的内容。你给句子打分,然后把它们放在train.txt中

我一直在与斯坦福大学的coreNLP合作,对我掌握的一些数据进行情绪分析,我正在创建一个培训模型。我知道我们可以使用以下命令创建培训模型:

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz
我知道train.txt文件中的内容。你给句子打分,然后把它们放在train.txt中,类似这样:
(0(今天2)(0(2是)(0(2 a)(0(0坏)(2天))))(…)

但是我不理解dev.txt文件中的内容。 我把这个问题通读了好几遍,试图理解dev.txt中的内容,但我仍然不清楚。此外,手动给这些句子打分已经成为一种痛苦,有没有一种工具可以让它变得更容易?我担心我使用了错误的括号数或其他类似的愚蠢错误

还有,关于我的train.txt文件的长度有什么建议吗?我在考虑写1000句话。这个数字是不是太小太大了

感谢您的帮助:)

  • dev.txt应该与train.txt相同,只是有一组不同的句子。请注意,dev.txt和train.txt中不应出现相同的句子。开发集用于评估在训练数据上训练的模型的质量

  • 我们没有发布用于标记情绪数据的工具。此类课程有助于构建数据:

  • 下面是情绪模型使用的序列、开发和测试集的大小:train=8544、dev=1101、test=2210


  • 下面是一些用于评估模型的示例代码

    // load a model
    SentimentModel model = SentimentModel.loadSerialized(modelPath);
    
    // load devTrees
    List<Tree> devTrees;
    devTrees = SentimentUtils.readTreesWithGoldLabels(devPath);
    
    // evaluate on devTrees
    Evaluate eval = new Evaluate(model);
    eval.eval(devTrees);
    eval.printSummary();
    
    //加载模型
    感伤模型=感伤模型.loadSerialized(modelPath);
    //加载数据树
    列出数据树;
    devTrees=thountautils.readTreesWithGoldLabels(devPath);
    //基于devTrees的评价
    评估评估=新评估(模型);
    评估,评估(devTrees);
    eval.printSummary();
    
    您可以找到需要导入的内容,等等。。。通过查看:


    edu/stanford/nlp/thousion/thousiontraining.java

    你能详细介绍一下dev.txt吗?现在,我正在为我的train.txt文件使用tweets。我应该收集相同数量的tweet,给它们打分,然后把它们放在dev.txt文件中吗?还有,一旦我创建了我的模型,我该如何测试它?我下载的coreNLP库中是否有一个jar文件可以在一个示例test.txt文件上运行?我很抱歉一下子问了你们这么多问题,但你们似乎是专家:DI在我的回答中出错了。文章介绍:树库中的句子被分成了一个序列(8544)、dev(1101)和test splits(2210)Yes dev.txt应该是相同类型的数据,但只是不同的示例。当您运行感伤训练的main()方法时,它会报告dev集合上的分数