Apache spark 是否可以将Excel文件从Apache Zeppellin读取到PySpark或熊猫数据帧?
我有一个HDFS文件(/user/username/Project/data/file.xlsx),我想读入数据帧。(我不在乎是PySpark数据帧还是熊猫,但熊猫是首选。) 我正在使用齐柏林飞艇笔记本来编写代码 是否可以从该文件中获取数据 我已经尝试了以下命令,但没有一个有效:Apache spark 是否可以将Excel文件从Apache Zeppellin读取到PySpark或熊猫数据帧?,apache-spark,pyspark,cloudera,Apache Spark,Pyspark,Cloudera,我有一个HDFS文件(/user/username/Project/data/file.xlsx),我想读入数据帧。(我不在乎是PySpark数据帧还是熊猫,但熊猫是首选。) 我正在使用齐柏林飞艇笔记本来编写代码 是否可以从该文件中获取数据 我已经尝试了以下命令,但没有一个有效: df=pd.read\u excel(“/user/username/Project/data/file.xlsx”) df=pd.read\u excel(“hdfs:///user/username/Projec
df=pd.read\u excel(“/user/username/Project/data/file.xlsx”)
df=pd.read\u excel(“hdfs:///user/username/Project/data/file.xlsx“”
df=pd.read\u excel(“hdfs://user/username/Project/data/file.xlsx“”
- 将文件加载到spark中,然后使用toPandas() df=spark.read.format(“excel”).load(“hdfs:xxx”).toPandas()
- 如前所述,使用一些替代方法使熊猫能够直接阅读