Parquet 拼花地板：具有不同列的数据集文件_Parquet_Pyarrow_Apache Arrow

Parquet 拼花地板：具有不同列的数据集文件

Parquet 拼花地板：具有不同列的数据集文件,parquet,pyarrow,apache-arrow,Parquet,Pyarrow,Apache Arrow,使用pyarrow。我有一个由多个拼花文件组成的拼花数据集。如果文件之间的列不同，那么我会得到一个“ValueError:Schema in was different” 有没有办法避免这种情况？这意味着我想要一个由文件组成的数据集，每个文件包含不同的列我想这可以通过pyarrow实现，如果数据集的特定组件文件中没有列，则将缺少的列的值填充为na 谢谢加载带有单独数据帧（如df1和df2）的文件，通过引用文章合并这些数据帧在本文中，您可能会发现两种合并方法，一种是 df1.merge(d

使用pyarrow。我有一个由多个拼花文件组成的拼花数据集。如果文件之间的列不同，那么我会得到一个“ValueError:Schema in was different”

有没有办法避免这种情况？这意味着我想要一个由文件组成的数据集，每个文件包含不同的列

我想这可以通过pyarrow实现，如果数据集的特定组件文件中没有列，则将缺少的列的值填充为na

谢谢

加载带有单独数据帧（如df1和df2）的文件，通过引用文章合并这些数据帧

在本文中，您可能会发现两种合并方法，一种是

df1.merge(df2, how = 'outer')

另一个带有熊猫包，如下所示：

pd.concat([df1, df2])

这并不是我想要表达的意思，我想要按列进行分区。将更新我的问题以反映这一点。我想知道为什么这个问题有两个反对票，而它是非常清楚的，肯定不明显的问题来解决pyarrow。你解决问题了吗？我正试图解决类似的问题——访问HDF并从拼花文件读取数据，但有些文件的模式与其他文件不同。根据设计，数据集中的所有文件都必须具有相同的模式。有一些有效的方法可以读取文件的模式，这样就可以避免爆炸。模式经常会随着时间的推移而变化，因为有一天可能会决定向数据集中添加一列，而不更改过去的拼花地板文件。理想情况下，在这种情况下，当我试图同时读取旧的和新的拼花地板文件时，我希望在历史数据中获得缺失的值。但我还没弄明白。我想pyarrow将来可能会将此功能添加到“非遗留”数据集中。。。或者你知道如何处理这种情况吗？