Scala 火花流储层概念

Scala 火花流储层概念,scala,spark-streaming,Scala,Spark Streaming,在某些情况下,我们不希望在某些数据到达时立即处理它们,而是在一段时间之后 我的问题是:有没有办法实现火花流蓄水池的概念 我的意思是,如何根据称为“储层”的结构中的条件临时存储一些数据流数据,并在以后进行处理 您可以使用collect函数来收集数据集: 例子: 收集tweet的数据集: val tweetStream = TwitterUtils.createStream(ssc, Utils.getAuth) .map(gson.toJson(_)) tweetStream.foreach

在某些情况下,我们不希望在某些数据到达时立即处理它们,而是在一段时间之后

我的问题是:有没有办法实现火花流蓄水池的概念


我的意思是,如何根据称为“储层”的结构中的条件临时存储一些数据流数据,并在以后进行处理

您可以使用collect函数来收集数据集: 例子: 收集tweet的数据集:

val tweetStream = TwitterUtils.createStream(ssc, Utils.getAuth)
  .map(gson.toJson(_))

tweetStream.foreachRDD((rdd, time) => {
  val count = rdd.count()
  if (count > 0) {
    val outputRDD = rdd.repartition(partitionsEachInterval)
    outputRDD.saveAsTextFile(
      outputDirectory + "/tweets_" + time.milliseconds.toString)
    numTweetsCollected += count
    if (numTweetsCollected > numTweetsToCollect) {
      System.exit(0)
    }
  }
})
您可能知道这一点,但在数据流上下文中,存储库通常指的是采样=>越来越不精确的存储。