Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/326.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java Rapidminer-处理大型数据集时内存不足_Java_Out Of Memory_Rapidminer - Fatal编程技术网

Java Rapidminer-处理大型数据集时内存不足

Java Rapidminer-处理大型数据集时内存不足,java,out-of-memory,rapidminer,Java,Out Of Memory,Rapidminer,在Rapidminer v.5.3013中,我希望实现以下目标: 从数据库表中读取1500万条记录-仅一个属性,最多4096个字符 该数据集上的正则表达式替换 基于朴素贝叶斯的分类 将结果(还有1500万行)写入另一个表中 我的进程运行在RapidAnalytics上,专用于8GB的RAM,尽管它总是在java.lang.OutOfMemoryError中崩溃 可能我必须迭代记录的较小子集,并将结果的每个部分追加到目标表中。有一个称为“循环数据集”的操作符,但我找不到合适的选项/参数来按需要的方

在Rapidminer v.5.3013中,我希望实现以下目标:

  • 从数据库表中读取1500万条记录-仅一个属性,最多4096个字符
  • 该数据集上的正则表达式替换
  • 基于朴素贝叶斯的分类
  • 将结果(还有1500万行)写入另一个表中
  • 我的进程运行在RapidAnalytics上,专用于8GB的RAM,尽管它总是在
    java.lang.OutOfMemoryError
    中崩溃

    可能我必须迭代记录的较小子集,并将结果的每个部分追加到目标表中。有一个称为“循环数据集”的操作符,但我找不到合适的选项/参数来按需要的方式进行迭代


    有人知道如何解决这个问题吗?

    您可以尝试使用循环批处理操作符并将Replace(字典)放入其中,然后执行追加操作。

    在哪一步显示错误?错误发生在第2步。我有一个“Replace(Dictionary)”操作符,一方面输入15 mil。另一方面,作为字典输入,它在一个表上迭代约200个正则表达式替换项。我会试试的,谢谢!根据说明:此运算符从输入ExampleSet创建批,并在每个批上执行其子流程。这对于在数据库中的非常大的数据集上应用运算符非常有用。