Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 不同模式的拼花地板_Python_Apache Spark_Pyspark - Fatal编程技术网

Python 不同模式的拼花地板

Python 不同模式的拼花地板,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我的文件夹/my_file/*.parquet中有一个拼花地板文件列表。 好的有一列“date\u time”,它应该是一个整数(unix历元时间戳) 但其中一些字段有一个真正的时间戳字段 root |-- date_time: timestamp (nullable = true) 问题是所有这些文件都在同一个文件夹中,当我读取它们时,数据帧上的任何操作都会生成错误: 列:[日期\时间],应为:LongType,应为:INT96 你有什么好方法可以让我轻松地将“时间戳”文件与“整数”文件分

我的文件夹
/my_file/*.parquet
中有一个拼花地板文件列表。 好的有一列“date\u time”,它应该是一个整数(unix历元时间戳)

但其中一些字段有一个真正的时间戳字段

root
 |-- date_time: timestamp (nullable = true)
问题是所有这些文件都在同一个文件夹中,当我读取它们时,数据帧上的任何
操作都会生成错误:

列:[日期\时间],应为:LongType,应为:INT96

你有什么好方法可以让我轻松地将“时间戳”文件与“整数”文件分开吗? 我的文件夹中有超过30k个文件,我只是不知道如何处理它们,因为任何操作都会产生错误

root
 |-- date_time: timestamp (nullable = true)