Python 熊猫-重采样-下采样前上采样
我有一个熊猫数据框,其中包含不同时间尺度的信息,即在某些时段,我每秒有100个数据点,而在其他时段,我每分钟有1个数据点 我的目标是使用固定时间窗口(例如:1秒)对该数据帧重新采样,在上采样时使用last进行正则化,在下采样时使用平均值 此外,我希望指定算法执行两个操作(下采样和上采样)的顺序,因为我需要先执行上采样(使用最后一个),然后再执行下采样(使用平均值) 使用pandas重采样功能是否可以实现这一点 例如,在下面的示例代码中,我希望结果数据帧中的值如下:0.5(平均值)介于0和10秒之间,0(最后一个)介于10和19秒之间,10介于19和39秒之间Python 熊猫-重采样-下采样前上采样,python,pandas,dataframe,Python,Pandas,Dataframe,我有一个熊猫数据框,其中包含不同时间尺度的信息,即在某些时段,我每秒有100个数据点,而在其他时段,我每分钟有1个数据点 我的目标是使用固定时间窗口(例如:1秒)对该数据帧重新采样,在上采样时使用last进行正则化,在下采样时使用平均值 此外,我希望指定算法执行两个操作(下采样和上采样)的顺序,因为我需要先执行上采样(使用最后一个),然后再执行下采样(使用平均值) 使用pandas重采样功能是否可以实现这一点 例如,在下面的示例代码中,我希望结果数据帧中的值如下:0.5(平均值)介于0和10秒之
import pandas as pd
import numpy as np
df1 = pd.DataFrame({'value' : np.repeat(1,10)}, index=pd.date_range('2010-01-01 00:00:00', periods=10, freq='1S'))
df2 = pd.DataFrame({'value' : np.repeat(0,10)}, index=pd.date_range('2010-01-01 00:00:00.5', periods=10, freq='1S'))
df3 = pd.DataFrame({'value' : np.repeat(10,3)}, index=pd.date_range('2010-01-01 00:00:19', periods=3, freq='10S'))
df = pd.concat([df1, df2, df3], axis=0)
df = df.sort_index()
df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='mean')
你建议我如何解决这个问题
编辑:我的真实数据帧很大,因此我希望尽量减少操作的数量,尤其是那些涉及对象复制的操作。首先是传统的下采样重采样:
df_new = df.resample(rule='1S')
然后是上采样,即更新下采样的数据,但不要覆盖它。您正在使用正向上采样数据填充空格:
df_new.update(df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='last'),
overwrite=False)
>>> df_new
value
2010-01-01 00:00:00 0.5
2010-01-01 00:00:01 0.5
2010-01-01 00:00:02 0.5
2010-01-01 00:00:03 0.5
2010-01-01 00:00:04 0.5
2010-01-01 00:00:05 0.5
2010-01-01 00:00:06 0.5
2010-01-01 00:00:07 0.5
2010-01-01 00:00:08 0.5
2010-01-01 00:00:09 0.5
2010-01-01 00:00:10 0.0
2010-01-01 00:00:11 0.0
2010-01-01 00:00:12 0.0
2010-01-01 00:00:13 0.0
2010-01-01 00:00:14 0.0
2010-01-01 00:00:15 0.0
2010-01-01 00:00:16 0.0
2010-01-01 00:00:17 0.0
2010-01-01 00:00:18 0.0
2010-01-01 00:00:19 10.0
2010-01-01 00:00:20 10.0
2010-01-01 00:00:21 10.0
2010-01-01 00:00:22 10.0
2010-01-01 00:00:23 10.0
2010-01-01 00:00:24 10.0
2010-01-01 00:00:25 10.0
2010-01-01 00:00:26 10.0
2010-01-01 00:00:27 10.0
2010-01-01 00:00:28 10.0
2010-01-01 00:00:29 10.0
2010-01-01 00:00:30 10.0
2010-01-01 00:00:31 10.0
2010-01-01 00:00:32 10.0
2010-01-01 00:00:33 10.0
2010-01-01 00:00:34 10.0
2010-01-01 00:00:35 10.0
2010-01-01 00:00:36 10.0
2010-01-01 00:00:37 10.0
2010-01-01 00:00:38 10.0
2010-01-01 00:00:39 10.0
不能在单个
重采样操作中混合上采样/下采样。我不知道为什么只要你得到想要的结果,操作顺序对你来说就很重要。因为熊猫在0.18.0中贬低了how=
和fill\u method=
参数,所以新的语法是:
df_new = df.resample(rule='1S').mean()
df_new.update(df.resample(rule='1S').ffill(), overwrite=False)
谢谢你的回答,我不清楚你必须打多次电话才能重新取样。