Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/codeigniter/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 我们可以更改火花流批次间隔的单位吗?_Apache Spark - Fatal编程技术网

Apache spark 我们可以更改火花流批次间隔的单位吗?

Apache spark 我们可以更改火花流批次间隔的单位吗?,apache-spark,Apache Spark,当我们初始化spark流上下文时,我们将使用如下代码: ssc = StreamingContext(sc, 1) 这里的1是批处理间隔,这里是1秒。这里的批处理间隔单位是时间(秒)。但是我们能把时间间隔改成别的吗?例如,文件的数量 就像我们有一个文件夹,会有文件进来,但我们不知道什么时候。我们想要的是,一旦有一个文件,我们就处理它,所以这里的间隔不是一个特定的时间范围,我希望它是文件的数量 我们能做到吗?那是不可能的。Spark Streaming本质上是在给定的时间间隔内重复执行批处理作业

当我们初始化spark流上下文时,我们将使用如下代码:

ssc = StreamingContext(sc, 1)
这里的1是批处理间隔,这里是1秒。这里的批处理间隔单位是时间(秒)。但是我们能把时间间隔改成别的吗?例如,文件的数量

就像我们有一个文件夹,会有文件进来,但我们不知道什么时候。我们想要的是,一旦有一个文件,我们就处理它,所以这里的间隔不是一个特定的时间范围,我希望它是文件的数量


我们能做到吗?

那是不可能的。Spark Streaming本质上是在给定的时间间隔内重复执行批处理作业。此外,所有窗口操作也都是基于时间的,因此在Spark流中不能忽略时间的概念


在您的情况下,您可能会尝试以尽可能短的处理时间优化作业,然后在没有新文件可用时,只使用具有0条记录的多个批次。

这是不可能的。Spark Streaming本质上是在给定的时间间隔内重复执行批处理作业。此外,所有窗口操作也都是基于时间的,因此在Spark流中不能忽略时间的概念

在您的情况下,您将尝试以尽可能短的处理时间优化作业,然后在没有新文件可用时,只使用具有0条记录的多个批次