Apache spark 如何在Spark流媒体中使用基于数据集的转换？_Apache Spark_Apache Spark Sql_Spark Streaming

Apache spark 如何在Spark流媒体中使用基于数据集的转换？

apache-spark

Apache spark 如何在Spark流媒体中使用基于数据集的转换？,apache-spark,apache-spark-sql,spark-streaming,Apache Spark,Apache Spark Sql,Spark Streaming,我有一个针对批处理模式（使用数据集）的Spark任务，它执行一些转换并将数据摄取到NOSQL中我从其他来源获得的数据在结构上与批处理模式下接收的数据相似，尽管频率非常高（分钟）。我可以使用批处理模式下的代码进行流式处理吗我试图避免使用2个代码副本来处理类似的结构。您可以使用transform流式操作符（如中所述）：返回一个新的数据流，其中每个RDD都是通过对“this”数据流的每个RDD应用函数生成的您可以使用transformstreaming操作符（如中所述）：返回一个新的数据流，

我有一个针对批处理模式（使用数据集）的Spark任务，它执行一些转换并将数据摄取到NOSQL中

我从其他来源获得的数据在结构上与批处理模式下接收的数据相似，尽管频率非常高（分钟）。我可以使用批处理模式下的代码进行流式处理吗

我试图避免使用2个代码副本来处理类似的结构。

您可以使用

transform

流式操作符（如中所述）：

返回一个新的数据流，其中每个RDD都是通过对“this”数据流的每个RDD应用函数生成的

您可以使用

transform

streaming操作符（如中所述）：

返回一个新的数据流，其中每个RDD都是通过对“this”数据流的每个RDD应用函数生成的

请发布更多详细信息-你在做什么，一些代码示例和Spark版本。在Spark 2.0中，您拥有结构化流媒体，因此流媒体数据集已准备就绪，可以从以下位置使用：“结构化流媒体在Spark 2.1中仍然是ALPHA，API仍然是实验性的。”我将其理解为“不用于生产使用”/“知道但还不使用”。请发布更多详细信息-您正在做什么，一些代码示例和Spark版本。在Spark 2.0中，您拥有结构化流媒体，因此流媒体数据集可以从以下位置使用：“结构化流媒体在Spark 2.1中仍然是ALPHA，API仍然是实验性的。”我将其理解为“不用于生产使用”/“知道但还没有使用”。

transform[U](transformFunc: (RDD[T]) ⇒ RDD[U])(implicit arg0: ClassTag[U]): DStream[U]