Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/324.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用Python pyarrow从拼花地板文件中筛选记录_Python_Parquet_Apache Arrow - Fatal编程技术网

如何使用Python pyarrow从拼花地板文件中筛选记录

如何使用Python pyarrow从拼花地板文件中筛选记录,python,parquet,apache-arrow,Python,Parquet,Apache Arrow,我正在尝试从拼花文件中筛选特定记录。我正在使用python pyarrow。 我设法用熊猫做了这件事(见下面的代码)。问题是,一个大的拼花地板文件需要大量内存。我在寻找其他选择-有什么想法吗 谢谢 df = pq.read_table(INPUT_FILE).to_pandas() df.query("id not in (%s)" % str(IDS_TO_FILTER)[1:-1], inplace=True) pq.write_table(pa.Table.from_pandas(df),

我正在尝试从拼花文件中筛选特定记录。我正在使用python pyarrow。 我设法用熊猫做了这件事(见下面的代码)。问题是,一个大的拼花地板文件需要大量内存。我在寻找其他选择-有什么想法吗

谢谢

df = pq.read_table(INPUT_FILE).to_pandas()
df.query("id not in (%s)" % str(IDS_TO_FILTER)[1:-1], inplace=True)
pq.write_table(pa.Table.from_pandas(df), OUTPUT_FILE)

如果您的拼花地板文件已分区,则可以使用按分区进行过滤。因此,在这种特殊情况下,如果您的拼花地板文件是按
id
分区的,那么它将起作用