Python 将非常大的csv文件拆分为较小的文件
Dask是否适合并行读取大型csv文件并将其拆分为多个较小的文件?嗨,Nutsa Nazgaide,欢迎诸如此类。首先,我建议你读一下和。你的问题已经足够好了,但如果能提供一个原始数据帧的样本就太好了。我将产生一个基本的数据文件,但是在你的情况下逻辑不应该太不同,因为你只需要考虑位置。 生成数据帧Python 将非常大的csv文件拆分为较小的文件,python,dask,dask-delayed,Python,Dask,Dask Delayed,Dask是否适合并行读取大型csv文件并将其拆分为多个较小的文件?嗨,Nutsa Nazgaide,欢迎诸如此类。首先,我建议你读一下和。你的问题已经足够好了,但如果能提供一个原始数据帧的样本就太好了。我将产生一个基本的数据文件,但是在你的情况下逻辑不应该太不同,因为你只需要考虑位置。 生成数据帧 导入dask.dataframe作为dd 将numpy作为np导入 作为pd进口熊猫 导入字符串 字母=列表(string.ascii_小写) N=int(1e6) df=pd.DataFrame({
导入dask.dataframe作为dd
将numpy作为np导入
作为pd进口熊猫
导入字符串
字母=列表(string.ascii_小写)
N=int(1e6)
df=pd.DataFrame({“成员”:np.random.choice(字母,N),
“值”:np.random.rand(N)})
df.to_csv(“file.csv”,index=False)
每个会员一个parquet
文件(文件夹)
如果您很高兴将输出设置为parquet
,您可以使用partition\u on
as选项
df=dd.read\u csv(“file.csv”)
df.to_拼花地板(“输出”,partition_on=“member”)
如果你真的需要
csv
,你可以转换成这种格式。我强烈建议您将数据移动到parquet
是的,dask可以读取大型CSV文件。它会把它们分成小块
df = dd.read_csv("/path/to/myfile.csv")
然后,在保存时,Dask总是将CSV数据保存到多个文件中
df.to_csv("/output/path/*.csv")
有关这方面的更多信息,请参阅read_csv和to_csv文档字符串