Machine learning 为什么weka中的最大熵总是导致JVM出堆?

Machine learning 为什么weka中的最大熵总是导致JVM出堆?,machine-learning,weka,text-classification,maxent,Machine Learning,Weka,Text Classification,Maxent,我尝试在weka中使用最大熵进行文本分类。我在Weka中使用逻辑回归,这相当于最大熵。我读到它的价格贵得要命。我将当前设置2G分配给JVM,并将字向量维保持为10000以评估最大熵,但它总是导致JVM内存不足。这让我觉得我犯了任何错误,因为2G堆大小对于任何分类器来说都太大了,不是吗 1) 有人在Weka中使用过MaxEnt(Logistic.Java)吗?对于文本分类来说,它应该这么慢吗 2) 是否有我可能忽略的MaxEnt所需的任何参数调整?您使用的是资源管理器还是代码?@NLPer我在代码

我尝试在weka中使用最大熵进行文本分类。我在Weka中使用逻辑回归,这相当于最大熵。我读到它的价格贵得要命。我将当前设置2G分配给JVM,并将字向量维保持为10000以评估最大熵,但它总是导致JVM内存不足。这让我觉得我犯了任何错误,因为2G堆大小对于任何分类器来说都太大了,不是吗

1) 有人在Weka中使用过MaxEnt(Logistic.Java)吗?对于文本分类来说,它应该这么慢吗


2) 是否有我可能忽略的MaxEnt所需的任何参数调整?

您使用的是资源管理器还是代码?@NLPer我在代码中使用的最大维度是1000。任何超过1000维的JVM都会吃掉所有高达2GB的堆,并最终进入堆外JVM…好的,您的arff有多大?您是如何更改maxheap的?我会尝试在RunWeka.ini中更改它,并从RunWeka.bat启动Explorer。对于在代码中的使用,我将在Eclipse中运行配置的VM参数中更改它。如果它们不起作用,您可能需要超过2GB。@NLPer是的,我尝试了所有选项,并了解到使用最大熵的计算成本非常高,因为它计算一个“F平方”矩阵,其中F是您的特征数。。。。!我从我的选项中排除最大熵。。。