Pyspark 如何从SparkSession对象创建DataFrame以读取PNG文件格式?
我正在开发环境中使用Spark2.0.0。我已经创建了SparkSession对象,如下所示Pyspark 如何从SparkSession对象创建DataFrame以读取PNG文件格式?,pyspark,apache-spark-2.0,Pyspark,Apache Spark 2.0,我正在开发环境中使用Spark2.0.0。我已经创建了SparkSession对象,如下所示 spark = SparkSession().getOrCreate() Image = spark.read.json() 我可以使用上面的SparkSession来读取json文件。但是有没有办法读取图像文件(PNG、JPG)?我曾尝试搜索spark 2.0文档,但没有提及任何内容 我的主要目标是将图像作为DF从一些localfileyatem/HDFS位置加载到 Image = spark.r
spark = SparkSession().getOrCreate()
Image = spark.read.json()
我可以使用上面的SparkSession来读取json文件。但是有没有办法读取图像文件(PNG、JPG)?我曾尝试搜索spark 2.0文档,但没有提及任何内容
我的主要目标是将图像作为DF从一些localfileyatem/HDFS位置加载到
Image = spark.read.()
并将它们保存为HDFS位置中的顺序文件,以便进行图像处理
我们怎样才能完成这项任务?非常感谢您的帮助。您可以使用SparkContext提供的WholeTextFile()方法。我不太习惯用python编写代码。但是,我可以用JAVA示例来帮助您
JavaSparkContext sc = new JavaSparkContext();
JavaRDD<Tuple2<String, String>> rdd = sc.wholeTextFiles("image-path", 1).toJavaRDD();
rdd.foreach(x -> {
});
JavaSparkContext sc=newJavaSparkContext();
JavaRDD rdd=sc.wholeTextFiles(“图像路径”,1).toJavaRDD();
rdd.foreach(x->{
});
一旦获得数据,您就可以使用自己的视频/图像库来处理图像。这是一种尝试性的方法。我没有使用sparkSession,而是使用了SparkContext及其内置功能
image = sc.textFile("hdfs:/<path_to/image2.png",1)
image=sc.textFile(“hdfs:”感谢您的回复,但我们的环境中不使用Java。任何一种语言的RDD在所有语言中都是相同的。逻辑是相同的。