Java Rapidminer-处理大型数据集时内存不足_Java_Out Of Memory_Rapidminer

Java Rapidminer-处理大型数据集时内存不足

java

Java Rapidminer-处理大型数据集时内存不足,java,out-of-memory,rapidminer,Java,Out Of Memory,Rapidminer,在Rapidminer v.5.3013中，我希望实现以下目标：从数据库表中读取1500万条记录-仅一个属性，最多4096个字符该数据集上的正则表达式替换基于朴素贝叶斯的分类将结果（还有1500万行）写入另一个表中我的进程运行在RapidAnalytics上，专用于8GB的RAM，尽管它总是在java.lang.OutOfMemoryError中崩溃可能我必须迭代记录的较小子集，并将结果的每个部分追加到目标表中。有一个称为“循环数据集”的操作符，但我找不到合适的选项/参数来按需要的方

在Rapidminer v.5.3013中，我希望实现以下目标：

从数据库表中读取1500万条记录-仅一个属性，最多4096个字符

该数据集上的正则表达式替换

基于朴素贝叶斯的分类

将结果（还有1500万行）写入另一个表中

我的进程运行在RapidAnalytics上，专用于8GB的RAM，尽管它总是在

java.lang.OutOfMemoryError

中崩溃

可能我必须迭代记录的较小子集，并将结果的每个部分追加到目标表中。有一个称为“循环数据集”的操作符，但我找不到合适的选项/参数来按需要的方式进行迭代

有人知道如何解决这个问题吗？

您可以尝试使用循环批处理操作符并将Replace（字典）放入其中，然后执行追加操作。

在哪一步显示错误？错误发生在第2步。我有一个“Replace（Dictionary）”操作符，一方面输入15 mil。另一方面，作为字典输入，它在一个表上迭代约200个正则表达式替换项。我会试试的，谢谢！根据说明：此运算符从输入ExampleSet创建批，并在每个批上执行其子流程。这对于在数据库中的非常大的数据集上应用运算符非常有用。