Dataframe spark读取csv行为,其中一种情况下,文件包含一个标头,而rest没有标头
航空公司是Databricks的一组公共数据集之一 这里,-00000部分有一个标题,其他部分没有 这: 架构的返回:Dataframe spark读取csv行为,其中一种情况下,文件包含一个标头,而rest没有标头,dataframe,csv,apache-spark,apache-spark-sql,Dataframe,Csv,Apache Spark,Apache Spark Sql,航空公司是Databricks的一组公共数据集之一 这里,-00000部分有一个标题,其他部分没有 这: 架构的返回: 1996:string 8:string 24:string 6:string 1739:string ... 然而: val paths = Seq( "/databricks-datasets/airlines/part-00000" ,"/databricks-datasets/airlines/part-00001&quo
1996:string
8:string
24:string
6:string
1739:string
...
然而:
val paths = Seq(
"/databricks-datasets/airlines/part-00000"
,"/databricks-datasets/airlines/part-00001"
,"/databricks-datasets/airlines/part-00011"
,"/databricks-datasets/airlines/part-00071"
,"/databricks-datasets/airlines/part-00084"
,"/databricks-datasets/airlines/part-00101"
,"/databricks-datasets/airlines/part-00105")
...
返回:
Year:integer
Month:integer
DayofMonth:integer
DayOfWeek:integer
...
是什么解释了这种差异
还以1.0采样率运行
似乎是随机的,请注意,具有更多列的文件具有首选项。如果列数相同,那么选择什么作为标题似乎是随机的。如果不是所有文件都有标题,那么我们的教训可能是提供一个模式。同意并总结了标题,但这里很好奇@mck@thebluephantom我的猜测是,你应该阅读完整的数据集,而不是其中任意一部分文件:)@mazaneicha老实说,我认为这是一个猜测。看看twio之间的区别。只有第一部分有一个模式,它看起来像。@mazaneicha得到了所有这些,刚刚注意到。这不太符合逻辑,但这是因为数据存在于数据库中。看看我是否错过了什么,答案是否定的。谢谢
Year:integer
Month:integer
DayofMonth:integer
DayOfWeek:integer
...