Apache spark 是否可以将Excel文件从Apache Zeppellin读取到PySpark或熊猫数据帧？_Apache Spark_Pyspark_Cloudera

Apache spark 是否可以将Excel文件从Apache Zeppellin读取到PySpark或熊猫数据帧？

apache-spark pyspark

Apache spark 是否可以将Excel文件从Apache Zeppellin读取到PySpark或熊猫数据帧？,apache-spark,pyspark,cloudera,Apache Spark,Pyspark,Cloudera,我有一个HDFS文件（/user/username/Project/data/file.xlsx），我想读入数据帧。（我不在乎是PySpark数据帧还是熊猫，但熊猫是首选。）我正在使用齐柏林飞艇笔记本来编写代码是否可以从该文件中获取数据我已经尝试了以下命令，但没有一个有效： df=pd.read\u excel（“/user/username/Project/data/file.xlsx”） df=pd.read\u excel（“hdfs:///user/username/Projec

我有一个HDFS文件（/user/username/Project/data/file.xlsx），我想读入数据帧。（我不在乎是PySpark数据帧还是熊猫，但熊猫是首选。）

我正在使用齐柏林飞艇笔记本来编写代码

是否可以从该文件中获取数据

我已经尝试了以下命令，但没有一个有效：

df=pd.read\u excel（“/user/username/Project/data/file.xlsx”）

df=pd.read\u excel（“hdfs:///user/username/Project/data/file.xlsx“”

df=pd.read\u excel（“hdfs://user/username/Project/data/file.xlsx“”

我认为您不能直接使用pandas读取hdfs中存储的文件

您可能必须：

将文件加载到spark中，然后使用toPandas（）
df=spark.read.format（“excel”）.load（“hdfs:xxx”）.toPandas（）
如前所述，使用一些替代方法使熊猫能够直接阅读

Apache Zeppellin中Python解释器中的导出和导入命令似乎只能通过“pd.read\u csv”和“to\u csv”模块实现