Java Rapidminer-处理大型数据集时内存不足
在Rapidminer v.5.3013中,我希望实现以下目标:Java Rapidminer-处理大型数据集时内存不足,java,out-of-memory,rapidminer,Java,Out Of Memory,Rapidminer,在Rapidminer v.5.3013中,我希望实现以下目标: 从数据库表中读取1500万条记录-仅一个属性,最多4096个字符 该数据集上的正则表达式替换 基于朴素贝叶斯的分类 将结果(还有1500万行)写入另一个表中 我的进程运行在RapidAnalytics上,专用于8GB的RAM,尽管它总是在java.lang.OutOfMemoryError中崩溃 可能我必须迭代记录的较小子集,并将结果的每个部分追加到目标表中。有一个称为“循环数据集”的操作符,但我找不到合适的选项/参数来按需要的方
java.lang.OutOfMemoryError
中崩溃
可能我必须迭代记录的较小子集,并将结果的每个部分追加到目标表中。有一个称为“循环数据集”的操作符,但我找不到合适的选项/参数来按需要的方式进行迭代
有人知道如何解决这个问题吗?您可以尝试使用循环批处理操作符并将Replace(字典)放入其中,然后执行追加操作。在哪一步显示错误?错误发生在第2步。我有一个“Replace(Dictionary)”操作符,一方面输入15 mil。另一方面,作为字典输入,它在一个表上迭代约200个正则表达式替换项。我会试试的,谢谢!根据说明:此运算符从输入ExampleSet创建批,并在每个批上执行其子流程。这对于在数据库中的非常大的数据集上应用运算符非常有用。