如何使用Python pyarrow从拼花地板文件中筛选记录
我正在尝试从拼花文件中筛选特定记录。我正在使用python pyarrow。 我设法用熊猫做了这件事(见下面的代码)。问题是,一个大的拼花地板文件需要大量内存。我在寻找其他选择-有什么想法吗 谢谢如何使用Python pyarrow从拼花地板文件中筛选记录,python,parquet,apache-arrow,Python,Parquet,Apache Arrow,我正在尝试从拼花文件中筛选特定记录。我正在使用python pyarrow。 我设法用熊猫做了这件事(见下面的代码)。问题是,一个大的拼花地板文件需要大量内存。我在寻找其他选择-有什么想法吗 谢谢 df = pq.read_table(INPUT_FILE).to_pandas() df.query("id not in (%s)" % str(IDS_TO_FILTER)[1:-1], inplace=True) pq.write_table(pa.Table.from_pandas(df),
df = pq.read_table(INPUT_FILE).to_pandas()
df.query("id not in (%s)" % str(IDS_TO_FILTER)[1:-1], inplace=True)
pq.write_table(pa.Table.from_pandas(df), OUTPUT_FILE)
如果您的拼花地板文件已分区,则可以使用按分区进行过滤。因此,在这种特殊情况下,如果您的拼花地板文件是按
id
分区的,那么它将起作用