Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在不保存所有数据的情况下检查RDD?_Apache Spark_Spark Streaming - Fatal编程技术网

Apache spark 如何在不保存所有数据的情况下检查RDD?

Apache spark 如何在不保存所有数据的情况下检查RDD?,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我正在运行一系列作业,所有作业都使用中间rdd。因此,我缓存了中间RDD,但经过一些迭代后,其速度会减慢。然后,我在缓存后使用rdd检查点来中断不需要的沿袭。在spark UI中,我能够确认检查点是否正确完成。但这也需要时间,因为它需要将每个rdd写入本地系统。在不保存实际rdd数据的情况下,打破不必要的沿袭的有效方法是什么 检查点的确切位置是保存所有数据。这可以打破血统并“忘记”过去。在不保存数据的情况下,中断沿袭是不可能的。我想先缓存数据,然后中断沿袭,以便我将来要使用的数据在RAM中,同时

我正在运行一系列作业,所有作业都使用中间rdd。因此,我缓存了中间RDD,但经过一些迭代后,其速度会减慢。然后,我在缓存后使用rdd检查点来中断不需要的沿袭。在spark UI中,我能够确认检查点是否正确完成。但这也需要时间,因为它需要将每个rdd写入本地系统。在不保存实际rdd数据的情况下,打破不必要的沿袭的有效方法是什么

检查点的确切位置是保存所有数据。这可以打破血统并“忘记”过去。在不保存数据的情况下,中断沿袭是不可能的。

我想先缓存数据,然后中断沿袭,以便我将来要使用的数据在RAM中,同时删除RDD的历史记录。因为数据在RAM中,所以我不想将其存储在本地系统中