Java 来自现有RDD的火花流_Java_Hadoop_Apache Spark_Spark Streaming

Java 来自现有RDD的火花流

java hadoop apache-spark

Java 来自现有RDD的火花流,java,hadoop,apache-spark,spark-streaming,Java,Hadoop,Apache Spark,Spark Streaming,任何人请帮助我如何从现有RDD创建数据流。我的代码是： JavaSparkContext ctx = new JavaSparkContext(conf); JavaRDD<String> rddd = ctx.parallelize(arraylist); JavaSparkContext ctx=新的JavaSparkContext（conf）； JavaRDD=ctx.parallelize（arraylist）；现在我需要使用这些rddd作为JavaStreaming

任何人请帮助我如何从现有RDD创建数据流。我的代码是：

JavaSparkContext ctx = new JavaSparkContext(conf);
JavaRDD<String> rddd = ctx.parallelize(arraylist);

JavaSparkContext ctx=新的JavaSparkContext（conf）；
JavaRDD=ctx.parallelize（arraylist）；

现在我需要使用这些rddd作为JavaStreamingContext的输入，试一试API。
RDD队列作为一个流，推送到队列中的每个RDD都将被视为数据流中的一批数据，并像流一样进行处理

public <T> InputDStream<T> queueStream(scala.collection.mutable.Queue<RDD<T>> queue,
                              boolean oneAtATime,
                              scala.reflect.ClassTag<T> evidence$15)

Create an input stream from a queue of RDDs. In each batch, it will process either one or all of the RDDs returned by the queue.
NOTE: Arbitrary RDDs can be added to queueStream, there is no way to recover data of those RDDs, so queueStream doesn't support checkpointing.

公共输入流队列流（scala.collection.mutable.Queue队列，
布尔值一次性，
scala.reflect.ClassTag证据（15美元）
从RDD队列创建输入流。在每个批处理中，它将处理队列返回的一个或所有RDD。
注意：可以将任意RDD添加到queueStream，无法恢复这些RDD的数据，因此queueStream不支持检查点。

试试API。
RDD队列作为一个流，推送到队列中的每个RDD都将被视为数据流中的一批数据，并像流一样进行处理

public <T> InputDStream<T> queueStream(scala.collection.mutable.Queue<RDD<T>> queue,
                              boolean oneAtATime,
                              scala.reflect.ClassTag<T> evidence$15)

Create an input stream from a queue of RDDs. In each batch, it will process either one or all of the RDDs returned by the queue.
NOTE: Arbitrary RDDs can be added to queueStream, there is no way to recover data of those RDDs, so queueStream doesn't support checkpointing.

公共输入流队列流（scala.collection.mutable.Queue队列，
布尔值一次性，
scala.reflect.ClassTag证据（15美元）
从RDD队列创建输入流。在每个批处理中，它将处理队列返回的一个或所有RDD。
注意：可以将任意RDD添加到queueStream，无法恢复这些RDD的数据，因此queueStream不支持检查点。

您到底想实现什么目标？仅从RDD创建流是不寻常的，因为RDD是一组有限的数据，而流通常意味着连续的数据处理。如果您想进行测试，并且有一个在每次迭代时返回相同RDD的数据流，您可以使用它，但您没有确切地告诉我们您要做什么Hello@Alexlikov和@Roberto Congiu。。谢谢你的快速回复。我的项目要求是每15分钟将新的xml文件推送到AWSS3服务器，然后将这些文件解析并存储到某个arraylist中。现在我必须将arraylist存储到cassandra数据库中。目前我的代码在spark core中，但问题是我必须每15分钟运行一次代码，以将arraylist存储到db中…这就是为什么我要寻找spark Streaming这里有

fileStream

可用于此目的，以监视目录和流文件Hello Alex。。谢谢你的回复。如果可能的话，你能提供fileStream的文档吗？你到底想实现什么？仅从RDD创建流是不寻常的，因为RDD是一组有限的数据，而流通常意味着连续的数据处理。如果您想进行测试，并且有一个在每次迭代时返回相同RDD的数据流，您可以使用它，但您没有确切地告诉我们您要做什么Hello@Alexlikov和@Roberto Congiu。。谢谢你的快速回复。我的项目要求是每15分钟将新的xml文件推送到AWSS3服务器，然后将这些文件解析并存储到某个arraylist中。现在我必须将arraylist存储到cassandra数据库中。目前我的代码在spark core中，但问题是我必须每15分钟运行一次代码，以将arraylist存储到db中…这就是为什么我要寻找spark Streaming这里有

fileStream

可用于此目的，以监视目录和流文件Hello Alex。。谢谢你的回复。如果可能的话，您能提供fileStream的文档吗？