Python Numpy：从数据帧创建可变长度序列_Python_Pandas_Numpy_Numpy Ndarray

Python Numpy：从数据帧创建可变长度序列

python pandas numpy

Python Numpy：从数据帧创建可变长度序列,python,pandas,numpy,numpy-ndarray,Python,Pandas,Numpy,Numpy Ndarray,假设我有以下数据帧： df_raw = pd.DataFrame({"person_id": [101, 101, 102, 102, 102, 103], "date": [0, 5, 0, 7, 11, 0], "val1": [99, 11, 22, 33, 44, 22], "val2": [77, 88, 22, 66, 55, 33]}) 我想实现的是创建一个三维numpy数组，结果如下： np_pros = np.array([[[0, 99, 77], [5, 11, 88]]

假设我有以下数据帧：

df_raw = pd.DataFrame({"person_id": [101, 101, 102, 102, 102, 103], "date": [0, 5, 0, 7, 11, 0], "val1": [99, 11, 22, 33, 44, 22], "val2": [77, 88, 22, 66, 55, 33]})

我想实现的是创建一个三维numpy数组，结果如下：

np_pros = np.array([[[0, 99, 77], [5, 11, 88]], [[0, 22, 22], [7, 33, 66], [11, 44, 55]], [[0, 22, 33]]])

换句话说，3D阵列应具有以下形状

[唯一\u ID，无，特征\u大小]

。在我的例子中，

unique\u id

的数量是3，

特征大小

是3（除了

person\u id

之外的所有列），并且

列的长度是可变的，它表示

person\u id

的测量数量

我很清楚，我可以创建一个

np.zeros（（唯一的\u id，最大\u num\u功能，功能大小））

数组，填充它，然后删除我不需要但我想要更快的元素。原因是我的实际数据帧很大（大约

[50000，455]

），这将导致一个大约为[12500，200，455]的numpy数组

期待您的回答

这里有一种方法：

ix = np.flatnonzero(df1.person_id != df1.person_id.shift(1))
np.split(df1.drop('person_id', axis=1).values, ix[1:])

[array([[ 0, 99, 77],
        [ 5, 11, 88]], dtype=int64), 
 array([[ 0, 22, 22],
        [ 7, 33, 66],
        [11, 44, 55]], dtype=int64), 
 array([[ 0, 22, 33]], dtype=int64)]

细节

在将

df1

与自身的移位版本（）进行比较后使用，以获得

人员id发生变化的索引：
ix = np.flatnonzero(df1.person_id != df1.person_id.shift(1))
#array([0, 2, 5])

用于根据获得的索引拆分数据帧的相关列：
np.split(df1.drop('person_id', axis=1).values, ix[1:])

[array([[ 0, 99, 77],
        [ 5, 11, 88]], dtype=int64), 
 array([[ 0, 22, 22],
        [ 7, 33, 66],
        [11, 44, 55]], dtype=int64), 
 array([[ 0, 22, 33]], dtype=int64)]

您可以使用：
输出
[array([[  0, 101,  99,  77],
       [  5, 101,  11,  88]]), array([[  0, 102,  22,  22],
       [  7, 102,  33,  66],
       [ 11, 102,  44,  55]]), array([[  0, 103,  22,  33]])]

另一个解决方案是

让我们创建person\u id的双重性所隐含的维度
>>> df['newdim'] = df.person_id.duplicated()
>>> df.newdim    = df.groupby('person_id').newdim.cumsum()
>>> df           = df.set_index(["newdim", "person_id"])
>>> df
                  date  val1  val2
newdim person_id                  
0.0    101           0    99    77
1.0    101           5    11    88
0.0    102           0    22    22
1.0    102           7    33    66
2.0    102          11    44    55
0.0    103           0    22    33

为了可读性，我们可能希望将df
转换为-object
请注意，nan
-值是通过强制引入的。我认为您无法创建这样的数组，每个内部数组都有不同的大小，即组大小。但是你可以有一份清单。@DanielMesejo那么你有什么建议？在内存和复杂性方面，什么是最佳的？之后你想做什么？这是一个好问题。在我有了序列之后，我想用Tensorflow执行bucketing来动态填充序列。这就是为什么我严格地希望最终得到一个可变长度数组（在一批中填充）。
>>> df['newdim'] = df.person_id.duplicated()
>>> df.newdim    = df.groupby('person_id').newdim.cumsum()
>>> df           = df.set_index(["newdim", "person_id"])
>>> df
                  date  val1  val2
newdim person_id                  
0.0    101           0    99    77
1.0    101           5    11    88
0.0    102           0    22    22
1.0    102           7    33    66
2.0    102          11    44    55
0.0    103           0    22    33

>>> xa = df.to_xarray()
>>> xa
<xarray.Dataset>
Dimensions:    (newdim: 3, person_id: 3)
Coordinates:
  * newdim     (newdim) float64 0.0 1.0 2.0
  * person_id  (person_id) int64 101 102 103
Data variables:
    date       (newdim, person_id) float64 0.0 0.0 0.0 5.0 7.0 nan nan 11.0 nan
    val1       (newdim, person_id) float64 99.0 22.0 22.0 11.0 33.0 nan nan ...
    val2       (newdim, person_id) float64 77.0 22.0 33.0 88.0 66.0 nan nan ...

>>> ar = xa.to_array().T.values
>>> ar
array([[[ 0., 99., 77.],
        [ 5., 11., 88.],
        [nan, nan, nan]],

       [[ 0., 22., 22.],
        [ 7., 33., 66.],
        [11., 44., 55.]],

       [[ 0., 22., 33.],
        [nan, nan, nan],
        [nan, nan, nan]]])