从PySpark中的HDFS读取*.XLSX文件_Pyspark_Hdfs_Xlsx

从PySpark中的HDFS读取*.XLSX文件

pyspark

从PySpark中的HDFS读取*.XLSX文件,pyspark,hdfs,xlsx,Pyspark,Hdfs,Xlsx,如何在PySpark中从HDFS读取xlsx文件？一种方法是将其转换为csv文件，但我有很多文件，我正在寻找其他方法。我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方案进行研究-我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方法进行研究-您可以使用SparkFile直接读取它们： # spark is a SparkSession instance from pyspark import SparkFiles spark.sparkContext.a

如何在PySpark中从HDFS读取xlsx文件？一种方法是将其转换为csv文件，但我有很多文件，我正在寻找其他方法。

我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方案进行研究-

我认为使用标准spark库无法做到这一点。您可能希望将此作为一种替代方法进行研究-

您可以使用

SparkFile直接读取它们：
# spark is a SparkSession instance
from pyspark import SparkFiles

spark.sparkContext.addFile('hdfs:///user/bekce/myfile.xlsx')
with open(SparkFiles.get('myfile.xlsx'), 'rb') as handle:
    do_whatever(handle)

实际上，您可以使用SparkFile
直接读取它们：
# spark is a SparkSession instance
from pyspark import SparkFiles

spark.sparkContext.addFile('hdfs:///user/bekce/myfile.xlsx')
with open(SparkFiles.get('myfile.xlsx'), 'rb') as handle:
    do_whatever(handle)