Nlp 大数据集的最大熵分类器

Nlp 大数据集的最大熵分类器,nlp,machine-learning,classification,Nlp,Machine Learning,Classification,我一直在寻找一个最大熵分类实现,它可以处理500个类和1000个特性的输出大小。我的训练数据大约有30000000行。 我已经尝试使用MeGAM,64位R Max包,来自爱丁堡大学的Max工具,但正如预期的那样,它们中没有一个能够处理数据的大小。然而,对于这种性质的nlp任务来说,数据集的大小似乎并不太大。 有什么我应该采用的技巧吗?或者对我可以使用的工具包有什么建议? 我正试图在64位Windows机器上运行此程序,并在需要时使用Cygwin,内存为8GB。目前被认为是最快的大规模学习者。是另

我一直在寻找一个最大熵分类实现,它可以处理500个类和1000个特性的输出大小。我的训练数据大约有30000000行。 我已经尝试使用MeGAM,64位R Max包,来自爱丁堡大学的Max工具,但正如预期的那样,它们中没有一个能够处理数据的大小。然而,对于这种性质的nlp任务来说,数据集的大小似乎并不太大。 有什么我应该采用的技巧吗?或者对我可以使用的工具包有什么建议? 我正试图在64位Windows机器上运行此程序,并在需要时使用Cygwin,内存为8GB。

目前被认为是最快的大规模学习者。是另一种选择,但我不确定它是否能够处理3e10元素的矩阵


请注意,术语“MaxEnt”几乎完全由NLP人员使用;机器学习的人们称之为逻辑回归或logit,因此如果你搜索它,你可能会找到比搜索MaxEnt时多得多的工具。

Vowpal Wabbit能处理多类分类吗?我在他们的页面上看到的所有例子都是关于二进制分类的。@atlantis:根据它可以,但是功能没有很好的文档记录。然而,它指出逻辑损失的标签应该是1或-1,因此您可能必须进行一对所有训练。Liblinear也基本上进行逻辑回归的一对其余训练。但它是开箱即用的。到目前为止,我的数据集似乎运行良好。如果我看到任何问题,将进行编辑。