为什么dask部门需要独特?

为什么dask部门需要独特?,dask,Dask,我想使用已知的分区为dask数据帧(from_delayed)设置索引。然而,dask抱怨说,划分要求是唯一的。这个限制给我带来了麻烦,因为分区的大小大约为5GB,这对我来说有点太大了 对于某些操作,是否有办法绕过此限制或放松此限制?您应该将分区视为一种优化,这样dask就可以知道某些操作(groupby、获取特定索引行等)在哪个分区中需要哪些数据 如果您的数据没有以索引上的分区唯一的方式组织,您有一个简单的选择:根本不提供分区。然后,您将失去某些不适合您的情况的优化。或者,您可以决定在数据内部

我想使用已知的分区为
dask
数据帧(
from_delayed
)设置索引。然而,dask抱怨说,划分要求是唯一的。这个限制给我带来了麻烦,因为分区的大小大约为5GB,这对我来说有点太大了


对于某些操作,是否有办法绕过此限制或放松此限制?

您应该将分区视为一种优化,这样dask就可以知道某些操作(groupby、获取特定索引行等)在哪个分区中需要哪些数据

如果您的数据没有以索引上的分区唯一的方式组织,您有一个简单的选择:根本不提供分区。然后,您将失去某些不适合您的情况的优化。或者,您可以决定在数据内部或在将数据传递给dask之前重新组织数据