Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/visual-studio-2008/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在Spark流媒体中使用基于数据集的转换?_Apache Spark_Apache Spark Sql_Spark Streaming - Fatal编程技术网

Apache spark 如何在Spark流媒体中使用基于数据集的转换?

Apache spark 如何在Spark流媒体中使用基于数据集的转换?,apache-spark,apache-spark-sql,spark-streaming,Apache Spark,Apache Spark Sql,Spark Streaming,我有一个针对批处理模式(使用数据集)的Spark任务,它执行一些转换并将数据摄取到NOSQL中 我从其他来源获得的数据在结构上与批处理模式下接收的数据相似,尽管频率非常高(分钟)。我可以使用批处理模式下的代码进行流式处理吗 我试图避免使用2个代码副本来处理类似的结构。您可以使用transform流式操作符(如中所述): 返回一个新的数据流,其中每个RDD都是通过对“this”数据流的每个RDD应用函数生成的 您可以使用transformstreaming操作符(如中所述): 返回一个新的数据流,

我有一个针对批处理模式(使用数据集)的Spark任务,它执行一些转换并将数据摄取到NOSQL中

我从其他来源获得的数据在结构上与批处理模式下接收的数据相似,尽管频率非常高(分钟)。我可以使用批处理模式下的代码进行流式处理吗


我试图避免使用2个代码副本来处理类似的结构。

您可以使用
transform
流式操作符(如中所述):

返回一个新的数据流,其中每个RDD都是通过对“this”数据流的每个RDD应用函数生成的


您可以使用
transform
streaming操作符(如中所述):

返回一个新的数据流,其中每个RDD都是通过对“this”数据流的每个RDD应用函数生成的


请发布更多详细信息-你在做什么,一些代码示例和Spark版本。在Spark 2.0中,您拥有结构化流媒体,因此流媒体数据集已准备就绪,可以从以下位置使用:“结构化流媒体在Spark 2.1中仍然是ALPHA,API仍然是实验性的。”我将其理解为“不用于生产使用”/“知道但还不使用”。请发布更多详细信息-您正在做什么,一些代码示例和Spark版本。在Spark 2.0中,您拥有结构化流媒体,因此流媒体数据集可以从以下位置使用:“结构化流媒体在Spark 2.1中仍然是ALPHA,API仍然是实验性的。”我将其理解为“不用于生产使用”/“知道但还没有使用”。
transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U]