Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/381.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 来自现有RDD的火花流_Java_Hadoop_Apache Spark_Spark Streaming - Fatal编程技术网

Java 来自现有RDD的火花流

Java 来自现有RDD的火花流,java,hadoop,apache-spark,spark-streaming,Java,Hadoop,Apache Spark,Spark Streaming,任何人请帮助我如何从现有RDD创建数据流。 我的代码是: JavaSparkContext ctx = new JavaSparkContext(conf); JavaRDD<String> rddd = ctx.parallelize(arraylist); JavaSparkContext ctx=新的JavaSparkContext(conf); JavaRDD=ctx.parallelize(arraylist); 现在我需要使用这些rddd作为JavaStreaming

任何人请帮助我如何从现有RDD创建数据流。 我的代码是:

JavaSparkContext ctx = new JavaSparkContext(conf);
JavaRDD<String> rddd = ctx.parallelize(arraylist);
JavaSparkContext ctx=新的JavaSparkContext(conf);
JavaRDD=ctx.parallelize(arraylist);
现在我需要使用这些rddd作为JavaStreamingContext的输入,试一试API。
RDD队列作为一个流,推送到队列中的每个RDD都将被视为数据流中的一批数据,并像流一样进行处理

public <T> InputDStream<T> queueStream(scala.collection.mutable.Queue<RDD<T>> queue,
                              boolean oneAtATime,
                              scala.reflect.ClassTag<T> evidence$15)

Create an input stream from a queue of RDDs. In each batch, it will process either one or all of the RDDs returned by the queue.
NOTE: Arbitrary RDDs can be added to queueStream, there is no way to recover data of those RDDs, so queueStream doesn't support checkpointing.
公共输入流队列流(scala.collection.mutable.Queue队列,
布尔值一次性,
scala.reflect.ClassTag证据(15美元)
从RDD队列创建输入流。在每个批处理中,它将处理队列返回的一个或所有RDD。
注意:可以将任意RDD添加到queueStream,无法恢复这些RDD的数据,因此queueStream不支持检查点。
试试API。
RDD队列作为一个流,推送到队列中的每个RDD都将被视为数据流中的一批数据,并像流一样进行处理

public <T> InputDStream<T> queueStream(scala.collection.mutable.Queue<RDD<T>> queue,
                              boolean oneAtATime,
                              scala.reflect.ClassTag<T> evidence$15)

Create an input stream from a queue of RDDs. In each batch, it will process either one or all of the RDDs returned by the queue.
NOTE: Arbitrary RDDs can be added to queueStream, there is no way to recover data of those RDDs, so queueStream doesn't support checkpointing.
公共输入流队列流(scala.collection.mutable.Queue队列,
布尔值一次性,
scala.reflect.ClassTag证据(15美元)
从RDD队列创建输入流。在每个批处理中,它将处理队列返回的一个或所有RDD。
注意:可以将任意RDD添加到queueStream,无法恢复这些RDD的数据,因此queueStream不支持检查点。

您到底想实现什么目标?仅从RDD创建流是不寻常的,因为RDD是一组有限的数据,而流通常意味着连续的数据处理。如果您想进行测试,并且有一个在每次迭代时返回相同RDD的数据流,您可以使用它,但您没有确切地告诉我们您要做什么Hello@Alexlikov和@Roberto Congiu。。谢谢你的快速回复。我的项目要求是每15分钟将新的xml文件推送到AWSS3服务器,然后将这些文件解析并存储到某个arraylist中。现在我必须将arraylist存储到cassandra数据库中。目前我的代码在spark core中,但问题是我必须每15分钟运行一次代码,以将arraylist存储到db中…这就是为什么我要寻找spark Streaming这里有
fileStream
可用于此目的,以监视目录和流文件Hello Alex。。谢谢你的回复。如果可能的话,你能提供fileStream的文档吗?你到底想实现什么?仅从RDD创建流是不寻常的,因为RDD是一组有限的数据,而流通常意味着连续的数据处理。如果您想进行测试,并且有一个在每次迭代时返回相同RDD的数据流,您可以使用它,但您没有确切地告诉我们您要做什么Hello@Alexlikov和@Roberto Congiu。。谢谢你的快速回复。我的项目要求是每15分钟将新的xml文件推送到AWSS3服务器,然后将这些文件解析并存储到某个arraylist中。现在我必须将arraylist存储到cassandra数据库中。目前我的代码在spark core中,但问题是我必须每15分钟运行一次代码,以将arraylist存储到db中…这就是为什么我要寻找spark Streaming这里有
fileStream
可用于此目的,以监视目录和流文件Hello Alex。。谢谢你的回复。如果可能的话,您能提供fileStream的文档吗?