Python 数据帧滤波器矢量化
我有这样一个数据帧:Python 数据帧滤波器矢量化,python,pandas,numpy,python-3.5,Python,Pandas,Numpy,Python 3.5,我有这样一个数据帧: a = date | user | value ------------------------- 2017-05-01 | AAA | 1 2017-05-02 | AAA | 2 ... | AAA | ... 2017-08-31 | AAA | 1.7 2017-05-01 | BBB | 1.5 2017-05-02 | BBB | 3 ... |
a = date | user | value
-------------------------
2017-05-01 | AAA | 1
2017-05-02 | AAA | 2
... | AAA | ...
2017-08-31 | AAA | 1.7
2017-05-01 | BBB | 1.5
2017-05-02 | BBB | 3
... | BBB | ...
2017-08-31 | BBB | 2.7
此外,我还有一个如下列表:
b = start_date | user
-----------------
2017-05-02 | AAA
2017-05-05 | AAA
2017-05-03 | BBB
我现在想从a中提取一个三维矩阵,其中包含从b中给定的开始日期开始的3个下一个日期的列表。因此,在上面的例子中,以下是:
[
[[2017-05-02, AAA, 2], [2017-05-03, AAA, x], [2017-05-04, AAA, x]],
[[2017-05-05, AAA, 2], [2017-05-06, AAA, x], [2017-05-07, AAA, x]],
[[2017-05-03, BBB, 2], [2017-05-04, BBB, x], [2017-05-05, BBB, x]],
]
x代表一个随机值,我只是太懒了,没有把所有的例子都打下来
我正在使用Python 3.5。事先非常感谢。我期待着你聪明的回答:-)试试这个。。此外,还可以查看有关“如何制作良好的可复制示例”的信息
试试这个。。此外,还可以查看有关“如何制作良好的可复制示例”的信息
您是否可以设置数据框,使其能够复制和粘贴,如图所示,并且结构b正确。列表不是这样设置的。您是否可以设置数据框,使其能够复制和粘贴,如图所示,并且结构b正确。列表不是这样设置的。谢谢你的帮助。我将注意在将来构建正确的数据框架。非常感谢。谢谢你的帮助。我将注意在将来构建正确的数据框架。非常感谢。
DF=pd.merge(df1,df2,on='user',how='outer')
DF['DIFF']=DF['date_x']-DF['date_y']
DF=DF.loc[(DF.DIFF/np.timedelta64(1, 'D')>=0)&(DF.DIFF/np.timedelta64(1, 'D')<=2),:]
DF.drop('DIFF',1).groupby([DF.index.get_level_values(0),'date_y'])['date_x','user','value'].\
apply(lambda x :x.values.tolist()).values.tolist()
Out[760]:
[[[Timestamp('2017-05-02 00:00:00'), 'AAA ', 2.0],
[Timestamp('2017-05-03 00:00:00'), 'AAA ', 2.0],
[Timestamp('2017-05-04 00:00:00'), 'AAA ', 2.0]],
[[Timestamp('2017-05-05 00:00:00'), 'AAA ', 2.0],
[Timestamp('2017-05-06 00:00:00'), 'AAA ', 2.0],
[Timestamp('2017-05-07 00:00:00'), 'AAA ', 1.7]],
[[Timestamp('2017-05-03 00:00:00'), 'BBB ', 3.0],
[Timestamp('2017-05-04 00:00:00'), 'BBB ', 3.0],
[Timestamp('2017-05-05 00:00:00'), 'BBB ', 3.0]]]
df1
Out[748]:
date user value
0 2017-05-01 AAA 1.0
1 2017-05-02 AAA 2.0
2 2017-05-03 AAA 2.0
3 2017-05-04 AAA 2.0
4 2017-05-05 AAA 2.0
5 2017-05-06 AAA 2.0
6 2017-05-07 AAA 1.7
7 2017-05-01 BBB 1.5
8 2017-05-02 BBB 3.0
9 2017-05-03 BBB 3.0
10 2017-05-04 BBB 3.0
11 2017-05-05 BBB 3.0
df2
Out[749]:
date user
0 2017-05-02 AAA
1 2017-05-05 AAA
2 2017-05-03 BBB