Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用Spark SQL数据集作为基于RDD的作业_Java_Apache Spark_Apache Spark Sql - Fatal编程技术网

Java 使用Spark SQL数据集作为基于RDD的作业

Java 使用Spark SQL数据集作为基于RDD的作业,java,apache-spark,apache-spark-sql,Java,Apache Spark,Apache Spark Sql,Spark dataframe有toRDD()方法,但我不明白它有多有用。我们是否可以通过将转换的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流式处理作业?dataset为批处理和流式处理提供了统一的API,并且并非所有方法都适用于流式数据集。如果仔细搜索,您会发现流式数据集无法使用的其他方法(例如descripe) 我们是否可以通过将转换后的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流作业 我们不能。从结构化流媒体开始的

Spark dataframe有
toRDD()
方法,但我不明白它有多有用。我们是否可以通过将转换的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流式处理作业?

dataset
为批处理和流式处理提供了统一的API,并且并非所有方法都适用于流式数据集。如果仔细搜索,您会发现流式数据集无法使用的其他方法(例如
descripe

我们是否可以通过将转换后的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流作业

我们不能。从结构化流媒体开始的内容将保留在结构化流媒体中。不允许转换为RDD