Apache spark 如何在Scala中的两个数据流之间执行压缩?

Apache spark 如何在Scala中的两个数据流之间执行压缩?,apache-spark,spark-streaming,dstream,Apache Spark,Spark Streaming,Dstream,我有两个窗口化的数据流,我想像RDD中的普通压缩一样压缩 注:主要目的是计算窗口数据流的平均值和stdv,以防有更好的计算方法。我使用了数据流的transformWith来使用此rdd操作,这解决了我的问题 例如: valueStream.transformWith(mean, (rdd1: RDD[Int], rdd2 : RDD[Double]) => {rdd1.zip(rdd2)} 我使用DStream的transformWith来使用这个rdd操作,这解决了我的问题 例如:

我有两个窗口化的数据流,我想像RDD中的普通压缩一样压缩


注:主要目的是计算窗口数据流的平均值和stdv,以防有更好的计算方法。

我使用了数据流的transformWith来使用此rdd操作,这解决了我的问题

例如:

  valueStream.transformWith(mean, (rdd1: RDD[Int], rdd2 : RDD[Double]) => {rdd1.zip(rdd2)}

我使用DStream的transformWith来使用这个rdd操作,这解决了我的问题

例如:

  valueStream.transformWith(mean, (rdd1: RDD[Int], rdd2 : RDD[Double]) => {rdd1.zip(rdd2)}

你能添加一些细节吗?valueStream.transformWithmean,rdd1:RDD[Int],rdd2:RDD[Double]=>{rdd1.ziprdd2}我只是想知道如果每个数据流的批处理间隔不同会发生什么?你能详细解释一下吗?你能添加一些细节吗?valueStream.transformWithmean,rdd1:RDD[Int],rdd2:RDD[Double]=>{rdd1.ziprdd2}我只是想知道如果每个数据流的批处理间隔不同会发生什么?你能详细说明一下吗?