Python 熊猫-重采样-下采样前上采样_Python_Pandas_Dataframe

Python 熊猫-重采样-下采样前上采样

python pandas dataframe

Python 熊猫-重采样-下采样前上采样,python,pandas,dataframe,Python,Pandas,Dataframe,我有一个熊猫数据框，其中包含不同时间尺度的信息，即在某些时段，我每秒有100个数据点，而在其他时段，我每分钟有1个数据点我的目标是使用固定时间窗口（例如：1秒）对该数据帧重新采样，在上采样时使用last进行正则化，在下采样时使用平均值此外，我希望指定算法执行两个操作（下采样和上采样）的顺序，因为我需要先执行上采样（使用最后一个），然后再执行下采样（使用平均值）使用pandas重采样功能是否可以实现这一点例如，在下面的示例代码中，我希望结果数据帧中的值如下：0.5（平均值）介于0和10秒之

我有一个熊猫数据框，其中包含不同时间尺度的信息，即在某些时段，我每秒有100个数据点，而在其他时段，我每分钟有1个数据点

我的目标是使用固定时间窗口（例如：1秒）对该数据帧重新采样，在上采样时使用last进行正则化，在下采样时使用平均值

此外，我希望指定算法执行两个操作（下采样和上采样）的顺序，因为我需要先执行上采样（使用最后一个），然后再执行下采样（使用平均值）

使用pandas重采样功能是否可以实现这一点

例如，在下面的示例代码中，我希望结果数据帧中的值如下：0.5（平均值）介于0和10秒之间，0（最后一个）介于10和19秒之间，10介于19和39秒之间

import pandas as pd
import numpy as np

df1 = pd.DataFrame({'value' : np.repeat(1,10)}, index=pd.date_range('2010-01-01 00:00:00', periods=10, freq='1S'))
df2 = pd.DataFrame({'value' : np.repeat(0,10)}, index=pd.date_range('2010-01-01 00:00:00.5', periods=10, freq='1S'))
df3 = pd.DataFrame({'value' : np.repeat(10,3)}, index=pd.date_range('2010-01-01 00:00:19', periods=3, freq='10S'))

df = pd.concat([df1, df2, df3], axis=0)
df = df.sort_index()

df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='mean')

你建议我如何解决这个问题

编辑：我的真实数据帧很大，因此我希望尽量减少操作的数量，尤其是那些涉及对象复制的操作。

首先是传统的下采样重采样：

df_new = df.resample(rule='1S')

然后是上采样，即更新下采样的数据，但不要覆盖它。您正在使用正向上采样数据填充空格：

df_new.update(df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='last'), 
              overwrite=False)

>>> df_new
                     value
2010-01-01 00:00:00    0.5
2010-01-01 00:00:01    0.5
2010-01-01 00:00:02    0.5
2010-01-01 00:00:03    0.5
2010-01-01 00:00:04    0.5
2010-01-01 00:00:05    0.5
2010-01-01 00:00:06    0.5
2010-01-01 00:00:07    0.5
2010-01-01 00:00:08    0.5
2010-01-01 00:00:09    0.5
2010-01-01 00:00:10    0.0
2010-01-01 00:00:11    0.0
2010-01-01 00:00:12    0.0
2010-01-01 00:00:13    0.0
2010-01-01 00:00:14    0.0
2010-01-01 00:00:15    0.0
2010-01-01 00:00:16    0.0
2010-01-01 00:00:17    0.0
2010-01-01 00:00:18    0.0
2010-01-01 00:00:19   10.0
2010-01-01 00:00:20   10.0
2010-01-01 00:00:21   10.0
2010-01-01 00:00:22   10.0
2010-01-01 00:00:23   10.0
2010-01-01 00:00:24   10.0
2010-01-01 00:00:25   10.0
2010-01-01 00:00:26   10.0
2010-01-01 00:00:27   10.0
2010-01-01 00:00:28   10.0
2010-01-01 00:00:29   10.0
2010-01-01 00:00:30   10.0
2010-01-01 00:00:31   10.0
2010-01-01 00:00:32   10.0
2010-01-01 00:00:33   10.0
2010-01-01 00:00:34   10.0
2010-01-01 00:00:35   10.0
2010-01-01 00:00:36   10.0
2010-01-01 00:00:37   10.0
2010-01-01 00:00:38   10.0
2010-01-01 00:00:39   10.0

不能在单个

重采样操作中混合上采样/下采样。我不知道为什么只要你得到想要的结果，操作顺序对你来说就很重要。
因为熊猫在0.18.0中贬低了how=
和fill\u method=
参数，所以新的语法是：
df_new = df.resample(rule='1S').mean()
df_new.update(df.resample(rule='1S').ffill(), overwrite=False)

谢谢你的回答，我不清楚你必须打多次电话才能重新取样。