Scala 火花流储层概念_Scala_Spark Streaming

Scala 火花流储层概念

scala

Scala 火花流储层概念,scala,spark-streaming,Scala,Spark Streaming,在某些情况下，我们不希望在某些数据到达时立即处理它们，而是在一段时间之后我的问题是：有没有办法实现火花流蓄水池的概念我的意思是，如何根据称为“储层”的结构中的条件临时存储一些数据流数据，并在以后进行处理您可以使用collect函数来收集数据集：例子：收集tweet的数据集： val tweetStream = TwitterUtils.createStream(ssc, Utils.getAuth) .map(gson.toJson(_)) tweetStream.foreach

在某些情况下，我们不希望在某些数据到达时立即处理它们，而是在一段时间之后

我的问题是：有没有办法实现火花流蓄水池的概念

我的意思是，如何根据称为“储层”的结构中的条件临时存储一些数据流数据，并在以后进行处理

您可以使用collect函数来收集数据集：例子：收集tweet的数据集：

val tweetStream = TwitterUtils.createStream(ssc, Utils.getAuth)
  .map(gson.toJson(_))

tweetStream.foreachRDD((rdd, time) => {
  val count = rdd.count()
  if (count > 0) {
    val outputRDD = rdd.repartition(partitionsEachInterval)
    outputRDD.saveAsTextFile(
      outputDirectory + "/tweets_" + time.milliseconds.toString)
    numTweetsCollected += count
    if (numTweetsCollected > numTweetsToCollect) {
      System.exit(0)
    }
  }
})

您可能知道这一点，但在数据流上下文中，存储库通常指的是采样=>越来越不精确的存储。