Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/352.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将非常大的csv文件拆分为较小的文件_Python_Dask_Dask Delayed - Fatal编程技术网

Python 将非常大的csv文件拆分为较小的文件

Python 将非常大的csv文件拆分为较小的文件,python,dask,dask-delayed,Python,Dask,Dask Delayed,Dask是否适合并行读取大型csv文件并将其拆分为多个较小的文件?嗨,Nutsa Nazgaide,欢迎诸如此类。首先,我建议你读一下和。你的问题已经足够好了,但如果能提供一个原始数据帧的样本就太好了。我将产生一个基本的数据文件,但是在你的情况下逻辑不应该太不同,因为你只需要考虑位置。 生成数据帧 导入dask.dataframe作为dd 将numpy作为np导入 作为pd进口熊猫 导入字符串 字母=列表(string.ascii_小写) N=int(1e6) df=pd.DataFrame({

Dask是否适合并行读取大型csv文件并将其拆分为多个较小的文件?

嗨,Nutsa Nazgaide,欢迎诸如此类。首先,我建议你读一下和。你的问题已经足够好了,但如果能提供一个原始数据帧的样本就太好了。我将产生一个基本的数据文件,但是在你的情况下逻辑不应该太不同,因为你只需要考虑位置。 生成数据帧
导入dask.dataframe作为dd
将numpy作为np导入
作为pd进口熊猫
导入字符串
字母=列表(string.ascii_小写)
N=int(1e6)
df=pd.DataFrame({“成员”:np.random.choice(字母,N),
“值”:np.random.rand(N)})
df.to_csv(“file.csv”,index=False)
每个会员一个
parquet
文件(文件夹) 如果您很高兴将输出设置为
parquet
,您可以使用
partition\u on
as选项

df=dd.read\u csv(“file.csv”)
df.to_拼花地板(“输出”,partition_on=“member”)

如果你真的需要
csv
,你可以转换成这种格式。我强烈建议您将数据移动到
parquet

是的,dask可以读取大型CSV文件。它会把它们分成小块

df = dd.read_csv("/path/to/myfile.csv")
然后,在保存时,Dask总是将CSV数据保存到多个文件中

df.to_csv("/output/path/*.csv")
有关这方面的更多信息,请参阅read_csv和to_csv文档字符串