Python 如何使用条件为每个id分配二进制值_Python_Pandas_Numpy_Scikit Learn_Jupyter Notebook

Python 如何使用条件为每个id分配二进制值

python pandas numpy scikit-learn jupyter-notebook

Python 如何使用条件为每个id分配二进制值,python,pandas,numpy,scikit-learn,jupyter-notebook,Python,Pandas,Numpy,Scikit Learn,Jupyter Notebook,我想查看每个成员是否吸毒，1表示吸毒，0表示其他以下数据为每位会员的处方记录。每个成员在第0天都有该药物的处方记录。supply是指该药物计数提供的天数 id supply days 1 30 -200 1 30 0 1 100 183 1 80 250 2 5 0 2 5 10 3 5 0 3 30 100 3 30 150 3 30 200 3 30 280 3 50 310 对于分配1或

我想查看每个成员是否吸毒，1表示吸毒，0表示其他

以下数据为每位会员的处方记录。每个成员在第0天都有该药物的处方记录。supply是指该药物计数提供的天数

id supply days
1   30   -200
1   30   0
1   100  183
1   80   250
2   5    0
2   5    10
3   5    0
3   30   100
3   30   150
3   30   200
3   30   280
3   50   310

对于分配1或0的逻辑：

如果某会员国在前90天内根据供应量和天数未备有药品，则该会员国将成为“幼稚状态”。如果在90天内不吸毒，这个成员可能会回到天真的状态

如果一名会员在“幼稚状态”后3个月内手头有超过162天的药物供应，他将有很高的上瘾风险。所以我们给这个成员赋值1

期望的结果应该是

我试过的是

#Create Z,Z is the number of each naive status.
z=[]
y=0
z.append(y)
for i in range(len(abc)-1):
 if ((df.days[i+1]-df.days[i])>90)&((df.id[i+1]-df.id[i])==0):
  y=y+1
  z.append(y)
 else:
    if (df.id[i+1]-df.id[i])!=0: 
     y=0
     z.append(y)
    else:
     if (df.id[i+1]-df.id[i])==0:
      y=y
      z.append(y)
df['z']=z
#groupby id and z . sum.
df2=df.groupby(['id','z']).sum()
#create y to assign value.
df2['y'] = np.where((df2.supply>=162) , 1, 0)

我的结果是

id  supply  days   z
1   30     -200    0
1   30      0      1
1   100     183    2
1   80      250    2
2   5       0      0
2   5       10     0
3   30      0      0
3   30      100    1
3   30      150    1
3   30      200    1
3   30      280    1
3   30      310    1

       supply_sum
id  z
-------------   
1   0   30
    1   30
    2   180
-----------
2   0   10
-----------
3   0   30
    1   170


    id z     y
-------------------
    1  0     
       1
       2     1
-----------------
    2  0     0
------------------
    3  0     
       1     1

不起作用，因为我把每个z的供应量加起来。根据每个原始状态（z），它应该只加上3个月的供应（180天）。例如，id 3的y应该是0，因为在天真状态2（z=1）后的3个月内，他只服用了120片看看这是否对你有效

df_d=df.loc[(0<=df.days)&(df.days<=180)]
g=df_d.days.eq(0).cumsum()

df_new = df_d.groupby([g,'id'])['supply'].sum().reset_index().drop('days',axis=1)
df_new['y'] = np.where((df_new.supply>=162) , 1, 0)
print(df_new)

详细信息

使用

df_d=df.loc[（0不理解分配1的逻辑&0我修改了数据并添加了解释。我仍然不完全理解您的问题。但请看我在这里提出的这个问题-->看看这是否能让您了解如何处理您的问题
    id  supply  y
0   1   97      0
1   2   10      0
2   3   180     1