在Python中透视一个大表
我有72000*3(行*列)的大数据集。这是非枢轴的 数据。当我将这些数据转换为透视表时,发生了ValueError 下面是我的数据集示例在Python中透视一个大表,python,pandas,Python,Pandas,我有72000*3(行*列)的大数据集。这是非枢轴的 数据。当我将这些数据转换为透视表时,发生了ValueError 下面是我的数据集示例 UserID MovieID Ratings 35 16107 3 4498 16107 4 1915 16108 3 17615 16108 5 1075 16108 3 2067
UserID MovieID Ratings
35 16107 3
4498 16107 4
1915 16108 3
17615 16108 5
1075 16108 3
2067 16108 4
4808 16109 5
4391 16109 3
4160 16110 3
7543 16110 4
119 16111 1
119 16112 3
提高
ValueError: array is too big; `arr.size * arr.dtype.itemsize` is larger than the maximum possible size.
你的机器有多少内存?似乎您没有足够的内存用于此操作。有多少唯一的电影ID和用户ID?您正在查看一个数据帧,其中包含
MovieID.unique().size
x UserID.unique().size`元素作为浮点数。在20000 x 10000个唯一值的情况下,使用float64数据类型,您需要大约1.6 GB的内存,仅用于C中的浮点。我有20000个唯一的电影ID和16000个用户ID#Jamesh您的机器上有多少内存?似乎您没有足够的内存用于此操作。有多少唯一的电影ID和用户ID?您正在查看一个数据帧,其中包含MovieID.unique().size
x UserID.unique().size`元素作为浮点数。对于20000 x 10000个唯一值,使用float64数据类型,仅对于C中的浮点值,就需要大约1.6GB的内存。我有20000个唯一的电影ID和16000个用户ID
ValueError: array is too big; `arr.size * arr.dtype.itemsize` is larger than the maximum possible size.