Apache spark 我们可以更改火花流批次间隔的单位吗?
当我们初始化spark流上下文时,我们将使用如下代码:Apache spark 我们可以更改火花流批次间隔的单位吗?,apache-spark,Apache Spark,当我们初始化spark流上下文时,我们将使用如下代码: ssc = StreamingContext(sc, 1) 这里的1是批处理间隔,这里是1秒。这里的批处理间隔单位是时间(秒)。但是我们能把时间间隔改成别的吗?例如,文件的数量 就像我们有一个文件夹,会有文件进来,但我们不知道什么时候。我们想要的是,一旦有一个文件,我们就处理它,所以这里的间隔不是一个特定的时间范围,我希望它是文件的数量 我们能做到吗?那是不可能的。Spark Streaming本质上是在给定的时间间隔内重复执行批处理作业
ssc = StreamingContext(sc, 1)
这里的1是批处理间隔,这里是1秒。这里的批处理间隔单位是时间(秒)。但是我们能把时间间隔改成别的吗?例如,文件的数量
就像我们有一个文件夹,会有文件进来,但我们不知道什么时候。我们想要的是,一旦有一个文件,我们就处理它,所以这里的间隔不是一个特定的时间范围,我希望它是文件的数量
我们能做到吗?那是不可能的。Spark Streaming本质上是在给定的时间间隔内重复执行批处理作业。此外,所有窗口操作也都是基于时间的,因此在Spark流中不能忽略时间的概念
在您的情况下,您可能会尝试以尽可能短的处理时间优化作业,然后在没有新文件可用时,只使用具有0条记录的多个批次。这是不可能的。Spark Streaming本质上是在给定的时间间隔内重复执行批处理作业。此外,所有窗口操作也都是基于时间的,因此在Spark流中不能忽略时间的概念 在您的情况下,您将尝试以尽可能短的处理时间优化作业,然后在没有新文件可用时,只使用具有0条记录的多个批次