Pyspark-发布用“-”读取excel数据;useHeader,"&引用;假;

Pyspark-发布用“-”读取excel数据;useHeader,"&引用;假;,pyspark,spark-excel,Pyspark,Spark Excel,我正在尝试将一些excel数据读入Pyspark数据框。 我正在使用库:“com.crealytics:spark-excel_2.11:0.11.1” 我的数据中没有标题。 当从A列开始读取时,我能够成功地读取,但是当我尝试从下面的两列(如[N,O])读取时,我会得到一个包含所有空值的数据帧 我的数据如下: e、 g,从A2:B4读取时,我得到正确的数据帧: +-----+-----+ | _c0| _c1| +-----+-----+ |data2|data6| |data3|data

我正在尝试将一些excel数据读入Pyspark数据框。 我正在使用库:“com.crealytics:spark-excel_2.11:0.11.1”

我的数据中没有标题。 当从A列开始读取时,我能够成功地读取,但是当我尝试从下面的两列(如[N,O])读取时,我会得到一个包含所有空值的数据帧

我的数据如下:

e、 g,从A2:B4读取时,我得到正确的数据帧:

+-----+-----+
|  _c0|  _c1|
+-----+-----+
|data2|data6|
|data3|data7|
|data4|data8|
+-----+-----+
但使用相同的代码,只需将“dataAddress”更改为N2:O4,就可以得到带有空值的数据帧:

+----+----+
| _c0| _c1|
+----+----+
|null|null|
|null|null|
|null|null|
+----+----+
我的代码:

from pyspark.sql import SparkSession

from com.crealytics.spark.excel import *

spark = SparkSession.builder.appName("excel_try").enableHiveSupport().getOrCreate()


exldf = spark.read.format("com.crealytics.spark.excel")\
    .option("dataAddress","N2:O4")\
    .option("useHeader","false")\
    .option("inferSchema","true")\
    .load("/path/excel_false.xlsx")
 
 
exldf.show() 

spark.stop()
运行时使用:

spark-submit --master yarn --packages com.crealytics:spark-excel_2.11:0.11.1 excel_false.py

有人能帮忙解决吗?

中没有名为
useHeader
的选项。您的意思是
header
我猜,我也无法使用您提供的代码重现问题
useHeader
,该代码用于版本
2.11:0.11.1
。你在重新创建时面临什么问题?我使用了这个版本的
spark-excel_2.11-0.13.6
,带有
标题
选项,它运行良好。在中没有名为
useHeader
的选项。您的意思是
header
我猜,我也无法使用您提供的代码重现问题
useHeader
,该代码用于版本
2.11:0.11.1
。你在重新创建时面临什么问题?我使用了这个版本
spark-excel_2.11-0.13.6
,带有选项
header
,效果很好