Pyspark 如何从SparkSession对象创建DataFrame以读取PNG文件格式?

Pyspark 如何从SparkSession对象创建DataFrame以读取PNG文件格式?,pyspark,apache-spark-2.0,Pyspark,Apache Spark 2.0,我正在开发环境中使用Spark2.0.0。我已经创建了SparkSession对象,如下所示 spark = SparkSession().getOrCreate() Image = spark.read.json() 我可以使用上面的SparkSession来读取json文件。但是有没有办法读取图像文件(PNG、JPG)?我曾尝试搜索spark 2.0文档,但没有提及任何内容 我的主要目标是将图像作为DF从一些localfileyatem/HDFS位置加载到 Image = spark.r

我正在开发环境中使用Spark2.0.0。我已经创建了SparkSession对象,如下所示

spark = SparkSession().getOrCreate()
Image = spark.read.json() 
我可以使用上面的SparkSession来读取json文件。但是有没有办法读取图像文件(PNG、JPG)?我曾尝试搜索spark 2.0文档,但没有提及任何内容

我的主要目标是将图像作为DF从一些localfileyatem/HDFS位置加载到

Image = spark.read.()
并将它们保存为HDFS位置中的顺序文件,以便进行图像处理


我们怎样才能完成这项任务?非常感谢您的帮助。

您可以使用SparkContext提供的WholeTextFile()方法。我不太习惯用python编写代码。但是,我可以用JAVA示例来帮助您

JavaSparkContext sc = new JavaSparkContext();
JavaRDD<Tuple2<String, String>> rdd = sc.wholeTextFiles("image-path", 1).toJavaRDD();
rdd.foreach(x -> {

});
JavaSparkContext sc=newJavaSparkContext();
JavaRDD rdd=sc.wholeTextFiles(“图像路径”,1).toJavaRDD();
rdd.foreach(x->{
});

一旦获得数据,您就可以使用自己的视频/图像库来处理图像。

这是一种尝试性的方法。我没有使用sparkSession,而是使用了SparkContext及其内置功能

image = sc.textFile("hdfs:/<path_to/image2.png",1) 

image=sc.textFile(“hdfs:”感谢您的回复,但我们的环境中不使用Java。任何一种语言的RDD在所有语言中都是相同的。逻辑是相同的。