Python 从dataframe创建查找表
我想根据多个条件从数据帧创建一个查找表。我有以下建议:Python 从dataframe创建查找表,python,pandas,Python,Pandas,我想根据多个条件从数据帧创建一个查找表。我有以下建议: N = 100 L = ['AR1', 'PO1', 'RU1'] np.random.seed(0) df3 = pd.DataFrame( {'X':np.random.uniform(1,4,N), 'Y':np.random.uniform(1,4,N), 'Z':np.random.uniform(1,4,N), 'LG':np.random.choice(L,N), }) df
N = 100
L = ['AR1', 'PO1', 'RU1']
np.random.seed(0)
df3 = pd.DataFrame(
{'X':np.random.uniform(1,4,N),
'Y':np.random.uniform(1,4,N),
'Z':np.random.uniform(1,4,N),
'LG':np.random.choice(L,N),
})
df3['bins_X'] = df3.groupby('LG')['X'].apply(pd.qcut, q=5, labels=np.arange(5))
df3['bins_Y'] = df3.groupby('LG')['Y'].apply(pd.qcut, q=5, labels=np.arange(5))
df3['bins_Z'] = df3.groupby('LG')['Z'].apply(pd.qcut, q=5, labels=np.arange(5))
df3['bins_X_int'] = df3.groupby('LG')['X'].apply(pd.qcut, q=5)
df3['bins_Y_int'] = df3.groupby('LG')['Y'].apply(pd.qcut, q=5)
df3['bins_Z_int'] = df3.groupby('LG')['Z'].apply(pd.qcut, q=5)
df3.head()
我想从中创建以下查找表:
因此,按“LG”分组,垃圾箱从0到4排列。我需要的是用数据帧中的关联bin\u间隔填充的示例查找表。IIUC您可以这样做:
In [55]: lkp = df3[['LG']].sort_values('LG').copy()
In [56]: lkp['bin_number'] = lkp.groupby('LG').cumcount()
In [57]: lkp
Out[57]:
LG bin_number
0 AR1 0
46 AR1 1
25 AR1 2
26 AR1 3
57 AR1 4
28 AR1 5
29 AR1 6
56 AR1 7
31 AR1 8
32 AR1 9
.. ... ...
45 RU1 24
98 RU1 25
55 RU1 26
58 RU1 27
60 RU1 28
61 RU1 29
63 RU1 30
64 RU1 31
39 RU1 32
99 RU1 33
[100 rows x 2 columns]
IIUC:
对不起,我不明白。我需要用关联的bin间隔填写示例lookup_表。除此之外,每个“LG”只有5个bin_号码,你还有更多吗?我会更新这个问题,让它更清楚。谢谢piR,尽管是个问题。您再次为这个新表使用qcut,这个表是否返回与我用于创建原始数据帧的原始qcut中完全相同的结果?另一个问题,可能您没有注意到,但我添加了一个新问题:,关于您的解决方案在另一个表中的使用。你能看一下吗?是的!这意味着您可以使用查找表来填写
df3
的其余部分。你叫了6次。这样,你只需要打3次电话。我将继续努力展示这一方面。是的,我在bin_数之外添加了int,试图找出如何查找属于bin_数的int。我现在可以用你的解决方案放弃ints了。注意:我在函数中需要的bin_编号,我需要查找后续函数的int。简而言之,是一个整数中的数字,什么是关联的bin_数。我可能会在将来发布另一个问题。我已经在上面提到的问题上添加了悬赏。它涉及到您先前提供的解决方案。你能解决什么问题吗?
def get_ints(s, q):
return pd.Series(pd.qcut(s, q).sort_values().unique())
d1 = df3.set_index('LG')[list('XYZ')].stack()
g = d1.groupby(level=[0, 1])
g.apply(get_ints, q=5).unstack(1).rename_axis(['LG', 'bin_number']).reset_index()
LG bin_number X Y Z
0 AR1 0 [1.306, 1.926] [1.0556, 1.875] [1.0493, 1.819]
1 AR1 1 (1.926, 2.447] (1.875, 2.757] (1.819, 2.595]
2 AR1 2 (2.447, 2.812] (2.757, 3.0724] (2.595, 2.95]
3 AR1 3 (2.812, 3.0744] (3.0724, 3.376] (2.95, 3.334]
4 AR1 4 (3.0744, 3.936] (3.376, 3.803] (3.334, 3.885]
5 PO1 0 [1.0564, 1.286] [1.0955, 1.566] [1.074, 1.596]
6 PO1 1 (1.286, 1.868] (1.566, 1.911] (1.596, 1.895]
7 PO1 2 (1.868, 2.682] (1.911, 2.669] (1.895, 2.426]
8 PO1 3 (2.682, 3.29] (2.669, 2.958] (2.426, 3.283]
9 PO1 4 (3.29, 3.965] (2.958, 3.676] (3.283, 3.848]
10 RU1 0 [1.0141, 1.452] [1.0351, 2.158] [1.0397, 1.632]
11 RU1 1 (1.452, 1.983] (2.158, 2.49] (1.632, 2.223]
12 RU1 2 (1.983, 2.622] (2.49, 3.0893] (2.223, 3.0732]
13 RU1 3 (2.622, 3.226] (3.0893, 3.673] (3.0732, 3.729]
14 RU1 4 (3.226, 3.929] (3.673, 3.997] (3.729, 3.971]