Java 如何使用spark流从HDFS读取数据?

Java 如何使用spark流从HDFS读取数据?,java,apache-spark,hdfs,spark-streaming,Java,Apache Spark,Hdfs,Spark Streaming,我的HDFS目录包含json文件您可以使用textFileStream将其作为文本文件读取,然后进行转换 JavaSparkContext sc = new JavaSparkContext(conf); SQLContext sqlContext = new SQLContext(sc); JavaStreamingContext ssc = new JavaStreamingContext(sc, new Duration(1000)); 这将为您提供DStream[Strings],它是

我的HDFS目录包含json文件

您可以使用
textFileStream
将其作为文本文件读取,然后进行转换

JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
JavaStreamingContext ssc = new JavaStreamingContext(sc, new Duration(1000));
这将为您提供
DStream[Strings]
,它是
RDD[String]

然后,您可以根据需要获得每个时间间隔的RDD

val dstream = ssc.textFileStream("path to hdfs directory")

希望这对您有所帮助

您可以使用
textFileStream
将其作为文本文件读取并在以后进行转换

JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
JavaStreamingContext ssc = new JavaStreamingContext(sc, new Duration(1000));
这将为您提供
DStream[Strings]
,它是
RDD[String]

然后,您可以根据需要获得每个时间间隔的RDD

val dstream = ssc.textFileStream("path to hdfs directory")

希望这有帮助

很抱歉,我对java不太在行,但与此相比不会有太大差异。很抱歉,我对java不太在行,但与此相比不会有太大差异。我希望此stackoverflow问题帮助您@SatishT该问题不是Spark Streaming。。。我希望这个stackoverflow问题能帮助你@SatishT这个问题不是Spark Streaming。。。