Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/docker/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Parquet 拼花地板:具有不同列的数据集文件_Parquet_Pyarrow_Apache Arrow - Fatal编程技术网

Parquet 拼花地板:具有不同列的数据集文件

Parquet 拼花地板:具有不同列的数据集文件,parquet,pyarrow,apache-arrow,Parquet,Pyarrow,Apache Arrow,使用pyarrow。 我有一个由多个拼花文件组成的拼花数据集。如果文件之间的列不同,那么我会得到一个“ValueError:Schema in was different” 有没有办法避免这种情况? 这意味着我想要一个由文件组成的数据集,每个文件包含不同的列 我想这可以通过pyarrow实现,如果数据集的特定组件文件中没有列,则将缺少的列的值填充为na 谢谢加载带有单独数据帧(如df1和df2)的文件,通过引用文章合并这些数据帧 在本文中,您可能会发现两种合并方法,一种是 df1.merge(d

使用pyarrow。 我有一个由多个拼花文件组成的拼花数据集。如果文件之间的列不同,那么我会得到一个“ValueError:Schema in was different”

有没有办法避免这种情况? 这意味着我想要一个由文件组成的数据集,每个文件包含不同的列

我想这可以通过pyarrow实现,如果数据集的特定组件文件中没有列,则将缺少的列的值填充为na


谢谢

加载带有单独数据帧(如df1和df2)的文件,通过引用文章合并这些数据帧

在本文中,您可能会发现两种合并方法,一种是

df1.merge(df2, how = 'outer')
另一个带有熊猫包,如下所示:

pd.concat([df1, df2])

这并不是我想要表达的意思,我想要按列进行分区。将更新我的问题以反映这一点。我想知道为什么这个问题有两个反对票,而它是非常清楚的,肯定不明显的问题来解决pyarrow。你解决问题了吗?我正试图解决类似的问题——访问HDF并从拼花文件读取数据,但有些文件的模式与其他文件不同。根据设计,数据集中的所有文件都必须具有相同的模式。有一些有效的方法可以读取文件的模式,这样就可以避免爆炸。模式经常会随着时间的推移而变化,因为有一天可能会决定向数据集中添加一列,而不更改过去的拼花地板文件。理想情况下,在这种情况下,当我试图同时读取旧的和新的拼花地板文件时,我希望在历史数据中获得缺失的值。但我还没弄明白。我想pyarrow将来可能会将此功能添加到“非遗留”数据集中。。。或者你知道如何处理这种情况吗?