Dataframe spark读取csv行为，其中一种情况下，文件包含一个标头，而rest没有标头_Dataframe_Csv_Apache Spark_Apache Spark Sql

Dataframe spark读取csv行为，其中一种情况下，文件包含一个标头，而rest没有标头

dataframe csv apache-spark

Dataframe spark读取csv行为，其中一种情况下，文件包含一个标头，而rest没有标头,dataframe,csv,apache-spark,apache-spark-sql,Dataframe,Csv,Apache Spark,Apache Spark Sql,航空公司是Databricks的一组公共数据集之一这里，-00000部分有一个标题，其他部分没有这：架构的返回： 1996:string 8:string 24:string 6:string 1739:string ... 然而： val paths = Seq( "/databricks-datasets/airlines/part-00000" ,"/databricks-datasets/airlines/part-00001&quo

航空公司是Databricks的一组公共数据集之一

这里，-00000部分有一个标题，其他部分没有

这：

架构的返回：

1996:string
8:string
24:string
6:string
1739:string
...

然而：

val paths = Seq(
   "/databricks-datasets/airlines/part-00000"  
   ,"/databricks-datasets/airlines/part-00001"
   ,"/databricks-datasets/airlines/part-00011"
   ,"/databricks-datasets/airlines/part-00071"
   ,"/databricks-datasets/airlines/part-00084"
   ,"/databricks-datasets/airlines/part-00101"
   ,"/databricks-datasets/airlines/part-00105")
...

Year:integer
Month:integer
DayofMonth:integer
DayOfWeek:integer
...

是什么解释了这种差异

还以1.0采样率运行

似乎是随机的，请注意，具有更多列的文件具有首选项。如果列数相同，那么选择什么作为标题似乎是随机的。

如果不是所有文件都有标题，那么我们的教训可能是提供一个模式。同意并总结了标题，但这里很好奇@mck@thebluephantom我的猜测是，你应该阅读完整的数据集，而不是其中任意一部分文件：）@mazaneicha老实说，我认为这是一个猜测。看看twio之间的区别。只有第一部分有一个模式，它看起来像。@mazaneicha得到了所有这些，刚刚注意到。这不太符合逻辑，但这是因为数据存在于数据库中。看看我是否错过了什么，答案是否定的。谢谢

Year:integer
Month:integer
DayofMonth:integer
DayOfWeek:integer
...