Pyspark-发布用“-”读取excel数据;useHeader,"&引用;假;
我正在尝试将一些excel数据读入Pyspark数据框。 我正在使用库:“com.crealytics:spark-excel_2.11:0.11.1” 我的数据中没有标题。 当从A列开始读取时,我能够成功地读取,但是当我尝试从下面的两列(如[N,O])读取时,我会得到一个包含所有空值的数据帧 我的数据如下: e、 g,从A2:B4读取时,我得到正确的数据帧:Pyspark-发布用“-”读取excel数据;useHeader,"&引用;假;,pyspark,spark-excel,Pyspark,Spark Excel,我正在尝试将一些excel数据读入Pyspark数据框。 我正在使用库:“com.crealytics:spark-excel_2.11:0.11.1” 我的数据中没有标题。 当从A列开始读取时,我能够成功地读取,但是当我尝试从下面的两列(如[N,O])读取时,我会得到一个包含所有空值的数据帧 我的数据如下: e、 g,从A2:B4读取时,我得到正确的数据帧: +-----+-----+ | _c0| _c1| +-----+-----+ |data2|data6| |data3|data
+-----+-----+
| _c0| _c1|
+-----+-----+
|data2|data6|
|data3|data7|
|data4|data8|
+-----+-----+
但使用相同的代码,只需将“dataAddress”更改为N2:O4,就可以得到带有空值的数据帧:
+----+----+
| _c0| _c1|
+----+----+
|null|null|
|null|null|
|null|null|
+----+----+
我的代码:
from pyspark.sql import SparkSession
from com.crealytics.spark.excel import *
spark = SparkSession.builder.appName("excel_try").enableHiveSupport().getOrCreate()
exldf = spark.read.format("com.crealytics.spark.excel")\
.option("dataAddress","N2:O4")\
.option("useHeader","false")\
.option("inferSchema","true")\
.load("/path/excel_false.xlsx")
exldf.show()
spark.stop()
运行时使用:
spark-submit --master yarn --packages com.crealytics:spark-excel_2.11:0.11.1 excel_false.py
有人能帮忙解决吗?中没有名为
useHeader
的选项。您的意思是header
我猜,我也无法使用您提供的代码重现问题useHeader
,该代码用于版本2.11:0.11.1
。你在重新创建时面临什么问题?我使用了这个版本的spark-excel_2.11-0.13.6
,带有标题
选项,它运行良好。在中没有名为useHeader
的选项。您的意思是header
我猜,我也无法使用您提供的代码重现问题useHeader
,该代码用于版本2.11:0.11.1
。你在重新创建时面临什么问题?我使用了这个版本spark-excel_2.11-0.13.6
,带有选项header
,效果很好