从PySpark中的HDFS读取*.XLSX文件

从PySpark中的HDFS读取*.XLSX文件,pyspark,hdfs,xlsx,Pyspark,Hdfs,Xlsx,如何在PySpark中从HDFS读取xlsx文件?一种方法是将其转换为csv文件,但我有很多文件,我正在寻找其他方法。我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方案进行研究-我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方法进行研究-您可以使用SparkFile直接读取它们: # spark is a SparkSession instance from pyspark import SparkFiles spark.sparkContext.a

如何在PySpark中从HDFS读取xlsx文件?一种方法是将其转换为csv文件,但我有很多文件,我正在寻找其他方法。

我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方案进行研究-

我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方法进行研究-

您可以使用
SparkFile直接读取它们:

# spark is a SparkSession instance
from pyspark import SparkFiles

spark.sparkContext.addFile('hdfs:///user/bekce/myfile.xlsx')
with open(SparkFiles.get('myfile.xlsx'), 'rb') as handle:
    do_whatever(handle)

实际上,您可以使用
SparkFile
直接读取它们:

# spark is a SparkSession instance
from pyspark import SparkFiles

spark.sparkContext.addFile('hdfs:///user/bekce/myfile.xlsx')
with open(SparkFiles.get('myfile.xlsx'), 'rb') as handle:
    do_whatever(handle)