在Python中透视一个大表_Python_Pandas

在Python中透视一个大表

python pandas

在Python中透视一个大表,python,pandas,Python,Pandas,我有72000*3（行*列）的大数据集。这是非枢轴的数据。当我将这些数据转换为透视表时，发生了ValueError 下面是我的数据集示例 UserID MovieID Ratings 35 16107 3 4498 16107 4 1915 16108 3 17615 16108 5 1075 16108 3 2067

我有72000*3（行*列）的大数据集。这是非枢轴的数据。当我将这些数据转换为透视表时，发生了ValueError

下面是我的数据集示例

UserID   MovieID   Ratings  
    35     16107         3  
  4498     16107         4  
  1915     16108         3  
 17615     16108         5  
  1075     16108         3  
  2067     16108         4  
  4808     16109         5  
  4391     16109         3  
  4160     16110         3  
  7543     16110         4  
   119     16111         1  
   119     16112         3

提高

ValueError: array is too big; `arr.size * arr.dtype.itemsize` is larger than the maximum possible size.

你的机器有多少内存？似乎您没有足够的内存用于此操作。有多少唯一的电影ID和用户ID？您正在查看一个数据帧，其中包含

MovieID.unique（）.size

x UserID.unique（）.size`元素作为浮点数。在20000 x 10000个唯一值的情况下，使用float64数据类型，您需要大约1.6 GB的内存，仅用于C中的浮点。我有20000个唯一的电影ID和16000个用户ID#Jamesh您的机器上有多少内存？似乎您没有足够的内存用于此操作。有多少唯一的电影ID和用户ID？您正在查看一个数据帧，其中包含

MovieID.unique（）.size

x UserID.unique（）.size`元素作为浮点数。对于20000 x 10000个唯一值，使用float64数据类型，仅对于C中的浮点值，就需要大约1.6GB的内存。我有20000个唯一的电影ID和16000个用户ID

ValueError: array is too big; `arr.size * arr.dtype.itemsize` is larger than the maximum possible size.