Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/297.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Pyspark databricks从第一个文件读取头文件_Python_Pyspark_Databricks - Fatal编程技术网

Python Pyspark databricks从第一个文件读取头文件

Python Pyspark databricks从第一个文件读取头文件,python,pyspark,databricks,Python,Pyspark,Databricks,我试图在databricks中读取航空公司数据集 Path in databricks -> /databricks-datasets/airlines 此文件夹下存在多个文件-从第-00000部分开始,依此类推 只有第-00000部分文件存在头信息。其他文件没有标题信息 我正在尝试使用以下命令读取所有文件 df= spark.read.format("csv").option("header", "true").load("/databricks-datasets/airlines

我试图在databricks中读取航空公司数据集

Path in databricks ->  /databricks-datasets/airlines 
此文件夹下存在多个文件-从第-00000部分开始,依此类推

只有第-00000部分文件存在头信息。其他文件没有标题信息

我正在尝试使用以下命令读取所有文件

df= spark.read.format("csv").option("header", "true").load("/databricks-datasets/airlines/part-*")
出于某种原因,它没有从第一个文件部分-00000中提取头信息。是否有一种方法可以从part-00000文件中提取头信息,因为其他文件没有头信息


谢谢

您可以首先读取包含标题的csv分区文件:

df = spark \
    .read \
    .format("csv")\
    .option("header", "true") \
    .load("/databricks-datasets/airlines.csv/part-00000")
然后保存模式:

csv_schema = df.schema
现在,您可以使用schema
csv\u schema
读取所有分区:

df = spark \
    .read \
    .format("csv")\
    .schema(csv_schema) \
    .load("/databricks-datasets/airlines.csv")

我不知道他们用的是*通配符。这可能就是问题所在。如果是这种情况,那么您可以将read命令放在范围内i的
中,然后将i格式化为五个字符,并将其插入到文件路径字符串中。