Java 使用Spark SQL数据集作为基于RDD的作业_Java_Apache Spark_Apache Spark Sql

Java 使用Spark SQL数据集作为基于RDD的作业

java apache-spark

Java 使用Spark SQL数据集作为基于RDD的作业,java,apache-spark,apache-spark-sql,Java,Apache Spark,Apache Spark Sql,Spark dataframe有toRDD（）方法，但我不明白它有多有用。我们是否可以通过将转换的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流式处理作业？dataset为批处理和流式处理提供了统一的API，并且并非所有方法都适用于流式数据集。如果仔细搜索，您会发现流式数据集无法使用的其他方法（例如descripe）我们是否可以通过将转换后的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流作业我们不能。从结构化流媒体开始的

Spark dataframe有

toRDD（）

方法，但我不明白它有多有用。我们是否可以通过将转换的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流式处理作业？

dataset

为批处理和流式处理提供了统一的API，并且并非所有方法都适用于流式数据集。如果仔细搜索，您会发现流式数据集无法使用的其他方法（例如

descripe

）

我们是否可以通过将转换后的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流作业

我们不能。从结构化流媒体开始的内容将保留在结构化流媒体中。不允许转换为RDD