Python 将数据帧从pandas转换为dask_Python_Pandas_Dask_Partition_Chunks

Python 将数据帧从pandas转换为dask

python pandas dask

Python 将数据帧从pandas转换为dask,python,pandas,dask,partition,chunks,Python,Pandas,Dask,Partition,Chunks,我遵循了此文档，有一些可选参数称为npartitions和chunksize 所以我试着写这样的东西： import dask.dataframe as dd import pandas as pd df = pd.DataFrame(...) df = dd.from_pandas(data=df) 它会发出错误消息： ValueError:必须指定nPartition和chunksize中的一个。我想知道如何解决它，我应该如何计算数据帧的npartitions或chunksize，就像

我遵循了此文档，有一些可选参数称为

npartitions

和

chunksize

所以我试着写这样的东西：

import dask.dataframe as dd
import pandas as pd

df = pd.DataFrame(...)
df = dd.from_pandas(data=df)

它会发出错误消息：

ValueError:必须指定nPartition和chunksize中的一个。

我想知道如何解决它，我应该如何计算数据帧的

npartitions

或

chunksize

，就像Dask调用

Dask.DataFrame.read_csv

？

你需要选择

npartitions

（分区数）或

chunksize

（每个分区的大小）在构建Dask数据帧之前。您需要决定要将pandas数据帧拆分成多少个并行数据帧，或者每个并行数据帧的大小。理想情况下，您希望根据系统的内存大小以及可用的内核数量来决定这一点。

这可能是DASK中的一个小故障。。。因为错误本身说我们需要指定

npartitions（要创建的索引的分区数）

或

chunksize（每个索引分区要使用的行数）。

查看此错误-

if (npartitions is None) == (chunksize is None):
   raise ValueError("Exactly one of npartitions and chunksize must be specified.")

以下是dask数据帧中

chunksize

和

npartitions

的最佳实践

，

有一个公式可以计算其中一个吗？