Apache spark 是否可以将Excel文件从Apache Zeppellin读取到PySpark或熊猫数据帧?

Apache spark 是否可以将Excel文件从Apache Zeppellin读取到PySpark或熊猫数据帧?,apache-spark,pyspark,cloudera,Apache Spark,Pyspark,Cloudera,我有一个HDFS文件(/user/username/Project/data/file.xlsx),我想读入数据帧。(我不在乎是PySpark数据帧还是熊猫,但熊猫是首选。) 我正在使用齐柏林飞艇笔记本来编写代码 是否可以从该文件中获取数据 我已经尝试了以下命令,但没有一个有效: df=pd.read\u excel(“/user/username/Project/data/file.xlsx”) df=pd.read\u excel(“hdfs:///user/username/Projec

我有一个HDFS文件(/user/username/Project/data/file.xlsx),我想读入数据帧。(我不在乎是PySpark数据帧还是熊猫,但熊猫是首选。)

我正在使用齐柏林飞艇笔记本来编写代码

是否可以从该文件中获取数据

我已经尝试了以下命令,但没有一个有效:

  • df=pd.read\u excel(“/user/username/Project/data/file.xlsx”)
  • df=pd.read\u excel(“hdfs:///user/username/Project/data/file.xlsx“”
  • df=pd.read\u excel(“hdfs://user/username/Project/data/file.xlsx“”

我认为您不能直接使用pandas读取hdfs中存储的文件

您可能必须:

  • 将文件加载到spark中,然后使用toPandas()

    df=spark.read.format(“excel”).load(“hdfs:xxx”).toPandas()

  • 如前所述,使用一些替代方法使熊猫能够直接阅读


Apache Zeppellin中Python解释器中的导出和导入命令似乎只能通过“pd.read\u csv”和“to\u csv”模块实现