Java 如何使用spark流从HDFS读取数据？_Java_Apache Spark_Hdfs_Spark Streaming

Java 如何使用spark流从HDFS读取数据？

java apache-spark

Java 如何使用spark流从HDFS读取数据？,java,apache-spark,hdfs,spark-streaming,Java,Apache Spark,Hdfs,Spark Streaming,我的HDFS目录包含json文件您可以使用textFileStream将其作为文本文件读取，然后进行转换 JavaSparkContext sc = new JavaSparkContext(conf); SQLContext sqlContext = new SQLContext(sc); JavaStreamingContext ssc = new JavaStreamingContext(sc, new Duration(1000)); 这将为您提供DStream[Strings]，它是

我的HDFS目录包含json文件

您可以使用

textFileStream

将其作为文本文件读取，然后进行转换

JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
JavaStreamingContext ssc = new JavaStreamingContext(sc, new Duration(1000));

这将为您提供

DStream[Strings]

，它是

RDD[String]

然后，您可以根据需要获得每个时间间隔的RDD

val dstream = ssc.textFileStream("path to hdfs directory")

希望这对您有所帮助

您可以使用

textFileStream

将其作为文本文件读取并在以后进行转换

JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
JavaStreamingContext ssc = new JavaStreamingContext(sc, new Duration(1000));

这将为您提供

DStream[Strings]

，它是

RDD[String]

然后，您可以根据需要获得每个时间间隔的RDD

val dstream = ssc.textFileStream("path to hdfs directory")

希望这有帮助

很抱歉，我对java不太在行，但与此相比不会有太大差异。很抱歉，我对java不太在行，但与此相比不会有太大差异。我希望此stackoverflow问题帮助您@SatishT该问题不是Spark Streaming。。。我希望这个stackoverflow问题能帮助你@SatishT这个问题不是Spark Streaming。。。