Parquet 拼花地板:具有不同列的数据集文件
使用pyarrow。 我有一个由多个拼花文件组成的拼花数据集。如果文件之间的列不同,那么我会得到一个“ValueError:Schema in was different” 有没有办法避免这种情况? 这意味着我想要一个由文件组成的数据集,每个文件包含不同的列 我想这可以通过pyarrow实现,如果数据集的特定组件文件中没有列,则将缺少的列的值填充为naParquet 拼花地板:具有不同列的数据集文件,parquet,pyarrow,apache-arrow,Parquet,Pyarrow,Apache Arrow,使用pyarrow。 我有一个由多个拼花文件组成的拼花数据集。如果文件之间的列不同,那么我会得到一个“ValueError:Schema in was different” 有没有办法避免这种情况? 这意味着我想要一个由文件组成的数据集,每个文件包含不同的列 我想这可以通过pyarrow实现,如果数据集的特定组件文件中没有列,则将缺少的列的值填充为na 谢谢加载带有单独数据帧(如df1和df2)的文件,通过引用文章合并这些数据帧 在本文中,您可能会发现两种合并方法,一种是 df1.merge(d
谢谢加载带有单独数据帧(如df1和df2)的文件,通过引用文章合并这些数据帧 在本文中,您可能会发现两种合并方法,一种是
df1.merge(df2, how = 'outer')
另一个带有熊猫包,如下所示:
pd.concat([df1, df2])
这并不是我想要表达的意思,我想要按列进行分区。将更新我的问题以反映这一点。我想知道为什么这个问题有两个反对票,而它是非常清楚的,肯定不明显的问题来解决pyarrow。你解决问题了吗?我正试图解决类似的问题——访问HDF并从拼花文件读取数据,但有些文件的模式与其他文件不同。根据设计,数据集中的所有文件都必须具有相同的模式。有一些有效的方法可以读取文件的模式,这样就可以避免爆炸。模式经常会随着时间的推移而变化,因为有一天可能会决定向数据集中添加一列,而不更改过去的拼花地板文件。理想情况下,在这种情况下,当我试图同时读取旧的和新的拼花地板文件时,我希望在历史数据中获得缺失的值。但我还没弄明白。我想pyarrow将来可能会将此功能添加到“非遗留”数据集中。。。或者你知道如何处理这种情况吗?