Python 将非常大的csv文件拆分为较小的文件_Python_Dask_Dask Delayed

Python 将非常大的csv文件拆分为较小的文件

python dask

Python 将非常大的csv文件拆分为较小的文件,python,dask,dask-delayed,Python,Dask,Dask Delayed,Dask是否适合并行读取大型csv文件并将其拆分为多个较小的文件？嗨，Nutsa Nazgaide，欢迎诸如此类。首先，我建议你读一下和。你的问题已经足够好了，但如果能提供一个原始数据帧的样本就太好了。我将产生一个基本的数据文件，但是在你的情况下逻辑不应该太不同，因为你只需要考虑位置。生成数据帧导入dask.dataframe作为dd 将numpy作为np导入作为pd进口熊猫导入字符串字母=列表（string.ascii_小写） N=int（1e6） df=pd.DataFrame（{

Dask是否适合并行读取大型csv文件并将其拆分为多个较小的文件？

嗨，Nutsa Nazgaide，欢迎诸如此类。首先，我建议你读一下和。你的问题已经足够好了，但如果能提供一个原始数据帧的样本就太好了。我将产生一个基本的数据文件，但是在你的情况下逻辑不应该太不同，因为你只需要考虑位置。生成数据帧

导入dask.dataframe作为dd
将numpy作为np导入
作为pd进口熊猫
导入字符串
字母=列表（string.ascii_小写）
N=int（1e6）
df=pd.DataFrame（{“成员”：np.random.choice（字母，N），
“值”：np.random.rand（N）}）
df.to_csv（“file.csv”，index=False）

每个会员一个

parquet

文件（文件夹）如果您很高兴将输出设置为

parquet

，您可以使用

partition\u on

as选项

df=dd.read\u csv（“file.csv”）
df.to_拼花地板（“输出”，partition_on=“member”）

如果你真的需要

csv

，你可以转换成这种格式。我强烈建议您将数据移动到

parquet

是的，dask可以读取大型CSV文件。它会把它们分成小块

df = dd.read_csv("/path/to/myfile.csv")

然后，在保存时，Dask总是将CSV数据保存到多个文件中

df.to_csv("/output/path/*.csv")

有关这方面的更多信息，请参阅read_csv和to_csv文档字符串