Python 将不规则时间序列转换为相对于最近邻居的Z核_Python_Numpy_Pandas

Python 将不规则时间序列转换为相对于最近邻居的Z核

python numpy pandas

Python 将不规则时间序列转换为相对于最近邻居的Z核,python,numpy,pandas,Python,Numpy,Pandas,我有一个不规则间隔索引的时间序列。我想通过减去平均值，然后除以每个点的标准偏差来转换数据。但是，我只想使用预定义的时间距离的数据值来计算平均值和标准偏差。在我下面的例子中，我使用了规则间隔的距离，但我希望它也能适应不规则的距离例如： n = 20 ts = pd.Series(np.random.rand(n), pd.date_range('2014-05-01', periods=n, freq='T', name='Time')) 假设我希望每个点的zsc

我有一个不规则间隔索引的时间序列。我想通过减去平均值，然后除以每个点的标准偏差来转换数据。但是，我只想使用预定义的时间距离的数据值来计算平均值和标准偏差。在我下面的例子中，我使用了规则间隔的距离，但我希望它也能适应不规则的距离

例如：

n = 20
ts = pd.Series(np.random.rand(n),
               pd.date_range('2014-05-01', periods=n, freq='T', name='Time'))

假设我希望每个点的zscore相对于该点一分钟内的所有点

最终结果应类似于以下系列

Time
2014-05-01 00:00:00    0.707107
2014-05-01 00:01:00   -0.752435
2014-05-01 00:02:00    0.866662
2014-05-01 00:03:00   -0.576136
2014-05-01 00:04:00   -0.580471
2014-05-01 00:05:00   -0.253403
2014-05-01 00:06:00   -0.076657
2014-05-01 00:07:00    1.054413
2014-05-01 00:08:00    0.095783
2014-05-01 00:09:00   -1.030982
2014-05-01 00:10:00    1.041127
2014-05-01 00:11:00   -1.028084
2014-05-01 00:12:00    0.198363
2014-05-01 00:13:00    0.851951
2014-05-01 00:14:00   -1.152701
2014-05-01 00:15:00    1.070238
2014-05-01 00:16:00   -0.395849
2014-05-01 00:17:00   -0.968585
2014-05-01 00:18:00    0.077004
2014-05-01 00:19:00    0.707107
Freq: T, dtype: float64

这是我一直在做的事情。请记住，这与pandas

rolling

功能相关，但不同于（我想您知道，否则您可能不会问这个问题）。对于你给出的规则间隔的数据，它会很好地结合起来，我们可以用它来比较

我要做的是使用

np.subtract.outer

计算序列中所有项目的距离

假设我们有您的时间序列

ts

import pandas as pd
import numpy as np

n = 20
np.random.seed([3,1415])
data = np.random.rand(n)
tidx = pd.date_range('2014-05-01', periods=n, freq='T', name='Time')
#                                                   ^
#                                                   |
#                                            Minute Frequency
ts = pd.Series(data, tidx, name='Bliggles')

pd.Series(ts.ix[lt_delta.index.to_series().str.get(1)].values, lt_delta.index)

现在我可以使用时间索引来计算距离，就像这样

distances = pd.DataFrame(np.subtract.outer(tidx, tidx), tidx, tidx).abs()

从这里开始，我测试小于所需距离的距离。假设该距离称为delta

lt_delta = (distances <= delta).stack()
lt_delta = lt_delta[lt_delta]

我返回一个

groupby

对象，这样它看起来和感觉上都像是在调用

rolling

。当我把它包装成一个函数时，它看起来

超功能让我们测试一下。我将使用一个

delta=pd.Timedelta（1，'m'）

（这是一分钟）。对于我创建的时间序列，对于每个日期时间索引，我应该看到该索引、前一分钟和后一分钟。这应等同于

ts.rolling（3，center=True）

，边缘除外。我将两者都做并比较

gbdelta = groupbydelta(ts, pd.Timedelta(1, 'm')).mean()
rolling = ts.rolling(3, center=True).mean()

pd.concat([gbdelta, rolling], axis=1, keys=['Delta', 'Rolling']).head()

看起来很棒！两者的区别在于

rolling

在边缘有

NaN

，而

gbdelta

不需要特定数量的元素，但这是设计的

不规则指数呢

np.random.seed([3,1415])
n = 7200
data = np.random.rand(n)
tidx = (pd.to_datetime(['2013-02-06']) + np.random.rand(n) * pd.Timedelta(1, 'd'))
irregular_series = pd.Series(data, tidx, name='Sketch').sort_index()

并绘制

不规则_序列

和一些基于最近邻的过滤版本

但你要的是zscores：

zd = (irregular_series - gbirr.mean()) / gbirr.std()

这个z得分有点棘手。我必须找到分组平均值和标准偏差，然后将它们用于原始序列。我还在想一个窒息的方法。但这已经足够顺利了

它看起来像什么

fig, axes = plt.subplots(1, 2, sharey=True, figsize=[10, 5])
irregular_series.plot(style='.', ax=axes[0], title='Original')
zd.plot(style='.', ax=axes[1], title='Z-Scored')

答复最后，您询问了数据示例的z分数。为了确保我得到了正确的答案

gbd = groupbydelta(ts, pd.Timedelta(1, 'm'))

ts.sub(gbd.mean()).div(gbd.std())

Time
2014-05-01 00:00:00    0.707107
2014-05-01 00:01:00   -0.752435
2014-05-01 00:02:00    0.866662
2014-05-01 00:03:00   -0.576136
2014-05-01 00:04:00   -0.580471
2014-05-01 00:05:00   -0.253403
2014-05-01 00:06:00   -0.076657
2014-05-01 00:07:00    1.054413
2014-05-01 00:08:00    0.095783
2014-05-01 00:09:00   -1.030982
2014-05-01 00:10:00    1.041127
2014-05-01 00:11:00   -1.028084
2014-05-01 00:12:00    0.198363
2014-05-01 00:13:00    0.851951
2014-05-01 00:14:00   -1.152701
2014-05-01 00:15:00    1.070238
2014-05-01 00:16:00   -0.395849
2014-05-01 00:17:00   -0.968585
2014-05-01 00:18:00    0.077004
2014-05-01 00:19:00    0.707107
Freq: T, dtype: float64

时机受root答案的启发，我重新编写了基于区间的函数。对于一定长度的时间序列，它比寻找外部差异更有效，这是有道理的

代码

这不是一个

pandas

numpy

解决方案，但应该提供良好的性能。本质上，要找到最近的点，可以使用PyPI上的包构建一个

intervaltree

包使用非常简单，在语法上非常类似于字典。这个包需要记住的一点是，区间中不包含上界，因此在构建树时需要填充上界。请注意，在我下面的代码中，我向上限添加了额外的纳秒

import intervaltree

def get_ts_zscore(ts, delta):
    # Get the upper and lower bounds, padding the upper bound.
    lower = ts.index - delta
    upper = ts.index + delta +  pd.Timedelta(1, 'ns')

    # Build the interval tree.
    t = intervaltree.IntervalTree().from_tuples(zip(lower, upper, ts))

    # Extract the overlaping data points for each index value.
    ts_grps = [[iv.data for iv in t[idx]]for idx in ts.index]

    # Compute the z-scores.
    ts_data = [(x - np.mean(grp))/np.std(grp, ddof=1) for x, grp in zip(ts, ts_grps)]

    return pd.Series(ts_data, ts.index)

我无法复制您确切的预期输出，可能是因为我随机生成数据的方式？我的输出与运行@piRSquared的代码完全匹配，所以我很确定它是正确的

计时

样本数据的计时（

n=20

）：

较大数据上的计时（

n=10**4

）：

哇<代码>一个表示努力。我需要一段时间来处理这个。太棒了！我会调查的+1谢谢你。我需要一个pandas/numpy解决方案，但我相信这将帮助其他人。我重写了我的函数并运行了一些额外的时间。我想你可能会发现它很有趣。基于时间窗口的滚动将在0.19.0中，请参阅；最近合并

gbd = groupbydelta(ts, pd.Timedelta(1, 'm'))

ts.sub(gbd.mean()).div(gbd.std())

Time
2014-05-01 00:00:00    0.707107
2014-05-01 00:01:00   -0.752435
2014-05-01 00:02:00    0.866662
2014-05-01 00:03:00   -0.576136
2014-05-01 00:04:00   -0.580471
2014-05-01 00:05:00   -0.253403
2014-05-01 00:06:00   -0.076657
2014-05-01 00:07:00    1.054413
2014-05-01 00:08:00    0.095783
2014-05-01 00:09:00   -1.030982
2014-05-01 00:10:00    1.041127
2014-05-01 00:11:00   -1.028084
2014-05-01 00:12:00    0.198363
2014-05-01 00:13:00    0.851951
2014-05-01 00:14:00   -1.152701
2014-05-01 00:15:00    1.070238
2014-05-01 00:16:00   -0.395849
2014-05-01 00:17:00   -0.968585
2014-05-01 00:18:00    0.077004
2014-05-01 00:19:00    0.707107
Freq: T, dtype: float64

def pirsquared(ts, delta):
    gbd = groupbydelta(ts, delta)
    return ts.sub(gbd.mean()).div(gbd.std())

cols = ['pirsquared', 'root']
ts_len = [500, 1000, 2000, 3000, 4000]
dt_len = [1, 5, 10, 20]
summary = pd.DataFrame([], pd.MultiIndex.from_product([ts_len, dt_len], names=['Points', 'Delta']), cols)
for n in ts_len:
    for d in dt_len:
        np.random.seed([3,1415])
        data = np.random.rand(n)
        tidx = (pd.to_datetime(['2013-02-06']) + np.random.rand(n) * pd.Timedelta(1, 'd'))
        ts = pd.Series(data, tidx, name='Sketch').sort_index()
        delta = pd.Timedelta(d, 'm')
        pt = timeit(lambda: pirsquared(ts, delta), number=2) / 2
        rt = timeit(lambda: root(ts, delta), number=2) / 2
        summary.loc[(n, d), cols] = pt, rt

summary.unstack().swaplevel(0, 1, 1).sort_index(1)

import intervaltree

def get_ts_zscore(ts, delta):
    # Get the upper and lower bounds, padding the upper bound.
    lower = ts.index - delta
    upper = ts.index + delta +  pd.Timedelta(1, 'ns')

    # Build the interval tree.
    t = intervaltree.IntervalTree().from_tuples(zip(lower, upper, ts))

    # Extract the overlaping data points for each index value.
    ts_grps = [[iv.data for iv in t[idx]]for idx in ts.index]

    # Compute the z-scores.
    ts_data = [(x - np.mean(grp))/np.std(grp, ddof=1) for x, grp in zip(ts, ts_grps)]

    return pd.Series(ts_data, ts.index)

%timeit get_ts_zscore(ts, pd.Timedelta(1, 'm'))

100 loops, best of 3: 2.89 ms per loop


%%timeit
gbd = groupbydelta(ts, pd.Timedelta(1, 'm'))
ts.sub(gbd.mean()).div(gbd.std())

100 loops, best of 3: 7.13 ms per loop

%timeit get_ts_zscore(ts, pd.Timedelta(1, 'm'))

1 loops, best of 3: 1.44 s per loop


%%timeit
gbd = groupbydelta(ts, pd.Timedelta(1, 'm'))
ts.sub(gbd.mean()).div(gbd.std())

1 loops, best of 3: 5.92 s per loop