Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/github/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Dataframe spark读取csv行为,其中一种情况下,文件包含一个标头,而rest没有标头_Dataframe_Csv_Apache Spark_Apache Spark Sql - Fatal编程技术网

Dataframe spark读取csv行为,其中一种情况下,文件包含一个标头,而rest没有标头

Dataframe spark读取csv行为,其中一种情况下,文件包含一个标头,而rest没有标头,dataframe,csv,apache-spark,apache-spark-sql,Dataframe,Csv,Apache Spark,Apache Spark Sql,航空公司是Databricks的一组公共数据集之一 这里,-00000部分有一个标题,其他部分没有 这: 架构的返回: 1996:string 8:string 24:string 6:string 1739:string ... 然而: val paths = Seq( "/databricks-datasets/airlines/part-00000" ,"/databricks-datasets/airlines/part-00001&quo

航空公司是Databricks的一组公共数据集之一

这里,-00000部分有一个标题,其他部分没有

这:

架构的返回:

1996:string
8:string
24:string
6:string
1739:string
...
然而:

val paths = Seq(
   "/databricks-datasets/airlines/part-00000"  
   ,"/databricks-datasets/airlines/part-00001"
   ,"/databricks-datasets/airlines/part-00011"
   ,"/databricks-datasets/airlines/part-00071"
   ,"/databricks-datasets/airlines/part-00084"
   ,"/databricks-datasets/airlines/part-00101"
   ,"/databricks-datasets/airlines/part-00105")
...
返回:

Year:integer
Month:integer
DayofMonth:integer
DayOfWeek:integer
...
是什么解释了这种差异

还以1.0采样率运行


似乎是随机的,请注意,具有更多列的文件具有首选项。如果列数相同,那么选择什么作为标题似乎是随机的。

如果不是所有文件都有标题,那么我们的教训可能是提供一个模式。同意并总结了标题,但这里很好奇@mck@thebluephantom我的猜测是,你应该阅读完整的数据集,而不是其中任意一部分文件:)@mazaneicha老实说,我认为这是一个猜测。看看twio之间的区别。只有第一部分有一个模式,它看起来像。@mazaneicha得到了所有这些,刚刚注意到。这不太符合逻辑,但这是因为数据存在于数据库中。看看我是否错过了什么,答案是否定的。谢谢
Year:integer
Month:integer
DayofMonth:integer
DayOfWeek:integer
...