Python 将数据帧从pandas转换为dask
我遵循了此文档,有一些可选参数称为Python 将数据帧从pandas转换为dask,python,pandas,dask,partition,chunks,Python,Pandas,Dask,Partition,Chunks,我遵循了此文档,有一些可选参数称为npartitions和chunksize 所以我试着写这样的东西: import dask.dataframe as dd import pandas as pd df = pd.DataFrame(...) df = dd.from_pandas(data=df) 它会发出错误消息: ValueError:必须指定nPartition和chunksize中的一个。 我想知道如何解决它,我应该如何计算数据帧的npartitions或chunksize,就像
npartitions
和chunksize
所以我试着写这样的东西:
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame(...)
df = dd.from_pandas(data=df)
它会发出错误消息:
ValueError:必须指定nPartition和chunksize中的一个。
我想知道如何解决它,我应该如何计算数据帧的
npartitions
或chunksize
,就像Dask调用Dask.DataFrame.read_csv
?你需要选择npartitions
(分区数)或chunksize
(每个分区的大小)在构建Dask数据帧之前。您需要决定要将pandas数据帧拆分成多少个并行数据帧,或者每个并行数据帧的大小。理想情况下,您希望根据系统的内存大小以及可用的内核数量来决定这一点。这可能是DASK中的一个小故障。。。因为错误本身说我们需要指定npartitions(要创建的索引的分区数)
或chunksize(每个索引分区要使用的行数)。
查看此错误-
if (npartitions is None) == (chunksize is None):
raise ValueError("Exactly one of npartitions and chunksize must be specified.")
以下是dask数据帧中chunksize
和npartitions
的最佳实践
,有一个公式可以计算其中一个吗?