Python 使用pyarrow读取保存为拼花地板的数据帧，将文件名保存在列中_Python_Pandas_Pyarrow

Python 使用pyarrow读取保存为拼花地板的数据帧，将文件名保存在列中

python pandas

Python 使用pyarrow读取保存为拼花地板的数据帧，将文件名保存在列中,python,pandas,pyarrow,Python,Pandas,Pyarrow,我想读一个包含熊猫数据框的拼花地板文件的文件夹。除了我正在读取的数据之外，我还想将从中读取数据的文件名存储在“file_origin”列中。在熊猫中，我可以这样做： import pandas as pd from pathlib import Path data_dir = Path("path_of_folder_with_files") df = pd.concat( pd.read_parquet(parquet_file).assi

我想读一个包含熊猫数据框的拼花地板文件的文件夹。除了我正在读取的数据之外，我还想将从中读取数据的文件名存储在“file_origin”列中。在熊猫中，我可以这样做：

import pandas as pd
from pathlib import Path

data_dir = Path("path_of_folder_with_files")
df = pd.concat(
                pd.read_parquet(parquet_file).assign(file_origin=parquet_file.name)
                for parquet_file in data_dir.glob("*")
            )

不幸的是，这相当缓慢。对于pyarrow（或任何其他有效的包），是否有类似的方法来实现这一点

您可以使用箭头而不是熊猫来实现它：

batches = []
for file_name in data_dir.glob("*"):
    table = pq.read_table(file_name)
    table = table.append_column("file_name", pa.array([file_name]*len(table), pa.string()))
    batches.extend(table.to_batches())
return pa.Table.from_batches(batches)

我并不期望它会更快，除非你的桌子上有很多字符串和对象（熊猫的速度很慢）。

谢谢。但是，这给了我以下信息：

TypeError:append\u column（）只接受一个参数（给定2个）

。知道吗？你用的是什么版本的pyarrow<代码>pa.uuu版本uuu0.11.1是我的版本api不同。尝试

table.append\u column（pa.column（“file\u name”，pa.array（[file\u name]*len（table），pa.string（）））

。但我建议您升级

batches = []
for file_name in data_dir.glob("*"):
    table = pq.read_table(file_name)
    table = table.append_column("file_name", pa.array([file_name]*len(table), pa.string()))
    batches.extend(table.to_batches())
return pa.Table.from_batches(batches)