Stanford nlp 关于创建斯坦福CoreNLP培训模型的问题_Stanford Nlp_Sentiment Analysis_Training Data_Scoring

Stanford nlp 关于创建斯坦福CoreNLP培训模型的问题

stanford-nlp

Stanford nlp 关于创建斯坦福CoreNLP培训模型的问题,stanford-nlp,sentiment-analysis,training-data,scoring,Stanford Nlp,Sentiment Analysis,Training Data,Scoring,我一直在与斯坦福大学的coreNLP合作，对我掌握的一些数据进行情绪分析，我正在创建一个培训模型。我知道我们可以使用以下命令创建培训模型： java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz 我知道train.txt文件中的内容。你给句子打分，然后把它们放在train.txt中

我一直在与斯坦福大学的coreNLP合作，对我掌握的一些数据进行情绪分析，我正在创建一个培训模型。我知道我们可以使用以下命令创建培训模型：

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath     dev.txt -train -model model.ser.gz

我知道train.txt文件中的内容。你给句子打分，然后把它们放在train.txt中，类似这样：

（0（今天2）（0（2是）（0（2 a）（0（0坏）（2天））））（…）

但是我不理解dev.txt文件中的内容。我把这个问题通读了好几遍，试图理解dev.txt中的内容，但我仍然不清楚。此外，手动给这些句子打分已经成为一种痛苦，有没有一种工具可以让它变得更容易？我担心我使用了错误的括号数或其他类似的愚蠢错误

还有，关于我的train.txt文件的长度有什么建议吗？我在考虑写1000句话。这个数字是不是太小太大了

感谢您的帮助：）

dev.txt应该与train.txt相同，只是有一组不同的句子。请注意，dev.txt和train.txt中不应出现相同的句子。开发集用于评估在训练数据上训练的模型的质量

我们没有发布用于标记情绪数据的工具。此类课程有助于构建数据：

下面是情绪模型使用的序列、开发和测试集的大小：train=8544、dev=1101、test=2210

下面是一些用于评估模型的示例代码

// load a model
SentimentModel model = SentimentModel.loadSerialized(modelPath);

// load devTrees
List<Tree> devTrees;
devTrees = SentimentUtils.readTreesWithGoldLabels(devPath);

// evaluate on devTrees
Evaluate eval = new Evaluate(model);
eval.eval(devTrees);
eval.printSummary();

//加载模型
感伤模型=感伤模型.loadSerialized（modelPath）；
//加载数据树
列出数据树；
devTrees=thountautils.readTreesWithGoldLabels（devPath）；
//基于devTrees的评价
评估评估=新评估（模型）；
评估，评估（devTrees）；
eval.printSummary（）；

您可以找到需要导入的内容，等等。。。通过查看：

edu/stanford/nlp/thousion/thousiontraining.java

你能详细介绍一下dev.txt吗？现在，我正在为我的train.txt文件使用tweets。我应该收集相同数量的tweet，给它们打分，然后把它们放在dev.txt文件中吗？还有，一旦我创建了我的模型，我该如何测试它？我下载的coreNLP库中是否有一个jar文件可以在一个示例test.txt文件上运行？我很抱歉一下子问了你们这么多问题，但你们似乎是专家：DI在我的回答中出错了。文章介绍：树库中的句子被分成了一个序列（8544）、dev（1101）和test splits（2210）Yes dev.txt应该是相同类型的数据，但只是不同的示例。当您运行感伤训练的main（）方法时，它会报告dev集合上的分数