Python 将数据帧从pandas转换为dask

Python 将数据帧从pandas转换为dask,python,pandas,dask,partition,chunks,Python,Pandas,Dask,Partition,Chunks,我遵循了此文档,有一些可选参数称为npartitions和chunksize 所以我试着写这样的东西: import dask.dataframe as dd import pandas as pd df = pd.DataFrame(...) df = dd.from_pandas(data=df) 它会发出错误消息: ValueError:必须指定nPartition和chunksize中的一个。 我想知道如何解决它,我应该如何计算数据帧的npartitions或chunksize,就像

我遵循了此文档,有一些可选参数称为
npartitions
chunksize

所以我试着写这样的东西:

import dask.dataframe as dd
import pandas as pd

df = pd.DataFrame(...)
df = dd.from_pandas(data=df)
它会发出错误消息:
ValueError:必须指定nPartition和chunksize中的一个。


我想知道如何解决它,我应该如何计算数据帧的
npartitions
chunksize
,就像Dask调用
Dask.DataFrame.read_csv

你需要选择
npartitions
(分区数)或
chunksize
(每个分区的大小)在构建Dask数据帧之前。您需要决定要将pandas数据帧拆分成多少个并行数据帧,或者每个并行数据帧的大小。理想情况下,您希望根据系统的内存大小以及可用的内核数量来决定这一点。

这可能是DASK中的一个小故障。。。因为错误本身说我们需要指定
npartitions(要创建的索引的分区数)
chunksize(每个索引分区要使用的行数)。

查看此错误-

if (npartitions is None) == (chunksize is None):
   raise ValueError("Exactly one of npartitions and chunksize must be specified.")
以下是dask数据帧中
chunksize
npartitions
的最佳实践


有一个公式可以计算其中一个吗?