Java 使用Spark SQL数据集作为基于RDD的作业
Spark dataframe有Java 使用Spark SQL数据集作为基于RDD的作业,java,apache-spark,apache-spark-sql,Java,Apache Spark,Apache Spark Sql,Spark dataframe有toRDD()方法,但我不明白它有多有用。我们是否可以通过将转换的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流式处理作业?dataset为批处理和流式处理提供了统一的API,并且并非所有方法都适用于流式数据集。如果仔细搜索,您会发现流式数据集无法使用的其他方法(例如descripe) 我们是否可以通过将转换后的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流作业 我们不能。从结构化流媒体开始的
toRDD()
方法,但我不明白它有多有用。我们是否可以通过将转换的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流式处理作业?dataset
为批处理和流式处理提供了统一的API,并且并非所有方法都适用于流式数据集。如果仔细搜索,您会发现流式数据集无法使用的其他方法(例如descripe
)
我们是否可以通过将转换后的源数据集处理为RDD而不是制作并启动DataStreamWriter来启动SQL流作业
我们不能。从结构化流媒体开始的内容将保留在结构化流媒体中。不允许转换为RDD