Pyspark-发布用“-”读取excel数据；useHeader，"&引用；假；_Pyspark_Spark Excel

Pyspark-发布用“-”读取excel数据；useHeader，"&引用；假；

pyspark

Pyspark-发布用“-”读取excel数据；useHeader，"&引用；假；,pyspark,spark-excel,Pyspark,Spark Excel,我正在尝试将一些excel数据读入Pyspark数据框。我正在使用库：“com.crealytics:spark-excel_2.11:0.11.1” 我的数据中没有标题。当从A列开始读取时，我能够成功地读取，但是当我尝试从下面的两列（如[N，O]）读取时，我会得到一个包含所有空值的数据帧我的数据如下： e、 g，从A2:B4读取时，我得到正确的数据帧： +-----+-----+ | _c0| _c1| +-----+-----+ |data2|data6| |data3|data

我正在尝试将一些excel数据读入Pyspark数据框。我正在使用库：“com.crealytics:spark-excel_2.11:0.11.1”

我的数据中没有标题。当从A列开始读取时，我能够成功地读取，但是当我尝试从下面的两列（如[N，O]）读取时，我会得到一个包含所有空值的数据帧

我的数据如下：

e、 g，从A2:B4读取时，我得到正确的数据帧：

+-----+-----+
|  _c0|  _c1|
+-----+-----+
|data2|data6|
|data3|data7|
|data4|data8|
+-----+-----+

但使用相同的代码，只需将“dataAddress”更改为N2:O4，就可以得到带有空值的数据帧：

+----+----+
| _c0| _c1|
+----+----+
|null|null|
|null|null|
|null|null|
+----+----+

我的代码：

from pyspark.sql import SparkSession

from com.crealytics.spark.excel import *

spark = SparkSession.builder.appName("excel_try").enableHiveSupport().getOrCreate()


exldf = spark.read.format("com.crealytics.spark.excel")\
    .option("dataAddress","N2:O4")\
    .option("useHeader","false")\
    .option("inferSchema","true")\
    .load("/path/excel_false.xlsx")
 
 
exldf.show() 

spark.stop()

运行时使用：

spark-submit --master yarn --packages com.crealytics:spark-excel_2.11:0.11.1 excel_false.py

有人能帮忙解决吗？

中没有名为

useHeader

的选项。您的意思是

header

我猜，我也无法使用您提供的代码重现问题

useHeader

，该代码用于版本

2.11:0.11.1

。你在重新创建时面临什么问题？我使用了这个版本的

spark-excel_2.11-0.13.6

，带有

标题

选项，它运行良好。在中没有名为

useHeader

的选项。您的意思是

header

我猜，我也无法使用您提供的代码重现问题

useHeader

，该代码用于版本

2.11:0.11.1

。你在重新创建时面临什么问题？我使用了这个版本

spark-excel_2.11-0.13.6

，带有选项

header

，效果很好