从PySpark中的HDFS读取*.XLSX文件
如何在PySpark中从HDFS读取xlsx文件?一种方法是将其转换为csv文件,但我有很多文件,我正在寻找其他方法。我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方案进行研究-我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方法进行研究-您可以使用从PySpark中的HDFS读取*.XLSX文件,pyspark,hdfs,xlsx,Pyspark,Hdfs,Xlsx,如何在PySpark中从HDFS读取xlsx文件?一种方法是将其转换为csv文件,但我有很多文件,我正在寻找其他方法。我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方案进行研究-我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方法进行研究-您可以使用SparkFile直接读取它们: # spark is a SparkSession instance from pyspark import SparkFiles spark.sparkContext.a
SparkFile直接读取它们:
# spark is a SparkSession instance
from pyspark import SparkFiles
spark.sparkContext.addFile('hdfs:///user/bekce/myfile.xlsx')
with open(SparkFiles.get('myfile.xlsx'), 'rb') as handle:
do_whatever(handle)
实际上,您可以使用SparkFile
直接读取它们:
# spark is a SparkSession instance
from pyspark import SparkFiles
spark.sparkContext.addFile('hdfs:///user/bekce/myfile.xlsx')
with open(SparkFiles.get('myfile.xlsx'), 'rb') as handle:
do_whatever(handle)