Stanford ner java.lang.OutofMemory问题和输出的解释_Java_Out Of Memory_Stanford Nlp_Named Entity Recognition

Stanford ner java.lang.OutofMemory问题和输出的解释

java stanford-nlp

Stanford ner java.lang.OutofMemory问题和输出的解释,java,out-of-memory,stanford-nlp,named-entity-recognition,Java,Out Of Memory,Stanford Nlp,Named Entity Recognition,我正在尝试使用stanford-ner.jar在相对较大的504MB语料库上进行训练，尽管我使用了-Xms1g和-Xms1g选项，但仍然存在内存问题。我认为最可怕的是输出，当我尝试训练一个小模型时，输出是这样的： [1000][2000]numFeatures = 215032 然而，我目前得到的员工人数甚至达到了534700人，而且数字特征仍在计算中。我想一定是有什么问题导致了内存问题，软件不能处理这么大的功能？我真的不明白[1000][2000]。。这些是什么意思？斯坦福大学是否有教程解释

我正在尝试使用stanford-ner.jar在相对较大的504MB语料库上进行训练，尽管我使用了-Xms1g和-Xms1g选项，但仍然存在内存问题。我认为最可怕的是输出，当我尝试训练一个小模型时，输出是这样的：

[1000][2000]numFeatures = 215032

然而，我目前得到的员工人数甚至达到了534700人，而且数字特征仍在计算中。我想一定是有什么问题导致了内存问题，软件不能处理这么大的功能？我真的不明白[1000][2000]。。这些是什么意思？斯坦福大学是否有教程解释软件的输出

我的火车语料库格式如下：

Google    COMP
And       O
Steve     PER
.         O

Microsoft COMP
Facebook  COMP
Total     MET
profix    MET
.         MET

诸如此类的小条目都构成了504MB的语料库

有人能告诉我这个问题吗

谢谢

您可能应该增加分配给程序的内存。传递给Java的-mx值是多少-Xms设置初始内存，而-mx或-Xmx设置最大内存。我的猜测是，对于500MB的语料库来说，这必须是一个非常大的值——至少是几个10GB，甚至可能更多。除此之外，我有一种不好的感觉，这将需要很长时间来训练

你从哪里收集到这么大的训练语料库？是否可以对语料库进行二次抽样，至少在一开始，看看是否符合要求？

您好，谢谢您的建议。我甚至将-Xms和-Xmx添加到了50GB的aws中。。但它仍然不起作用。语料库由模拟程序生成，子样本可以通过训练得到。。。