Stanford ner java.lang.OutofMemory问题和输出的解释

Stanford ner java.lang.OutofMemory问题和输出的解释,java,out-of-memory,stanford-nlp,named-entity-recognition,Java,Out Of Memory,Stanford Nlp,Named Entity Recognition,我正在尝试使用stanford-ner.jar在相对较大的504MB语料库上进行训练,尽管我使用了-Xms1g和-Xms1g选项,但仍然存在内存问题。我认为最可怕的是输出,当我尝试训练一个小模型时,输出是这样的: [1000][2000]numFeatures = 215032 然而,我目前得到的员工人数甚至达到了534700人,而且数字特征仍在计算中。我想一定是有什么问题导致了内存问题,软件不能处理这么大的功能?我真的不明白[1000][2000]。。这些是什么意思?斯坦福大学是否有教程解释

我正在尝试使用stanford-ner.jar在相对较大的504MB语料库上进行训练,尽管我使用了-Xms1g和-Xms1g选项,但仍然存在内存问题。我认为最可怕的是输出,当我尝试训练一个小模型时,输出是这样的:

[1000][2000]numFeatures = 215032
然而,我目前得到的员工人数甚至达到了534700人,而且数字特征仍在计算中。我想一定是有什么问题导致了内存问题,软件不能处理这么大的功能?我真的不明白[1000][2000]。。这些是什么意思?斯坦福大学是否有教程解释软件的输出

我的火车语料库格式如下:

Google    COMP
And       O
Steve     PER
.         O

Microsoft COMP
Facebook  COMP
Total     MET
profix    MET
.         MET
诸如此类的小条目都构成了504MB的语料库

有人能告诉我这个问题吗


谢谢

您可能应该增加分配给程序的内存。传递给Java的-mx值是多少-Xms设置初始内存,而-mx或-Xmx设置最大内存。我的猜测是,对于500MB的语料库来说,这必须是一个非常大的值——至少是几个10GB,甚至可能更多。除此之外,我有一种不好的感觉,这将需要很长时间来训练


你从哪里收集到这么大的训练语料库?是否可以对语料库进行二次抽样,至少在一开始,看看是否符合要求?

您好,谢谢您的建议。我甚至将-Xms和-Xmx添加到了50GB的aws中。。但它仍然不起作用。语料库由模拟程序生成,子样本可以通过训练得到。。。