Python 3.x 仅在同一数据中查找最接近的值_Python 3.x_Pandas_Merge

Python 3.x 仅在同一数据中查找最接近的值

python-3.x pandas merge

Python 3.x 仅在同一数据中查找最接近的值,python-3.x,pandas,merge,Python 3.x,Pandas,Merge,我想合并两个timeseries数据帧。第一个df中的值应与第二个df中具有最接近（但不完全匹配）日期时间戳的值合并。但第二个df的日期时间戳只应在同一日期的IFF中合并 Pandas merge_asof提供了所需的功能，但它将合并任何之前日期的值（如果该日期是“最近的”）。下面的示例显示了当前行为和所需的行为有没有办法改变目前的行为 import pandas as pd from datetime import datetime c = pd.DataFrame([["2017-01-

我想合并两个timeseries数据帧。第一个df中的值应与第二个df中具有最接近（但不完全匹配）日期时间戳的值合并。但第二个df的日期时间戳只应在同一日期的IFF中合并

Pandas merge_asof提供了所需的功能，但它将合并任何之前日期的值（如果该日期是“最近的”）。下面的示例显示了当前行为和所需的行为

有没有办法改变目前的行为

import pandas as pd
from datetime import datetime

c = pd.DataFrame([["2017-01-25 00:30:17", "LQE7GNC8O"],
["2017-01-25 00:30:18", "IWK8UOOU1"],
["2017-01-25 00:30:46", "MULAPBFTI"],
["2017-01-25 01:00:08", "RO9N7X31Z"],
["2017-01-25 01:00:08", "SDSFKA3LK"],
["2017-01-25 01:00:42", "YRVASRCNT"],
["2017-01-25 01:00:43", "D5KVPH3H6"],
["2017-01-25 01:00:48", "QZ98EIW2O"],
["2017-01-25 01:01:49", "LBC4F46JG"],
["2017-01-25 02:01:49", "PKGUHA9SS"],
["2017-01-25 03:15:24", "8YD2DFLMZ"]], columns=["datetime", "key"])

d = pd.DataFrame([["2017-01-24 00:00:00", "111111111"],
["2017-01-24 23:00:22", "111111111"],
["2017-01-25 01:00:22", "J64SHBLXH"],
["2017-01-25 01:00:27", "XCKJCJWSR"],
["2017-01-25 01:15:42", "3XSN8RWEY"],
["2017-01-25 02:14:42", "UIQKQL9EH"]], columns=["datetime", "words"])

c["datetime"] = pd.to_datetime(c["datetime"])
d["datetime"] = pd.to_datetime(d["datetime"])

pd.merge_asof(c, d.sort_values("datetime"), on="datetime", allow_exact_matches=False)

在这里，您可以通过

pd.merge_asof(c.assign(date=c.datetime.dt.date), d.sort_values("datetime").assign(date=d.datetime.dt.date), on="datetime", allow_exact_matches=False , by = 'date')
Out[215]: 
              datetime        key        date      words
0  2017-01-25 00:30:17  LQE7GNC8O  2017-01-25        NaN
1  2017-01-25 00:30:18  IWK8UOOU1  2017-01-25        NaN
2  2017-01-25 00:30:46  MULAPBFTI  2017-01-25        NaN
3  2017-01-25 01:00:08  RO9N7X31Z  2017-01-25        NaN
4  2017-01-25 01:00:08  SDSFKA3LK  2017-01-25        NaN
5  2017-01-25 01:00:42  YRVASRCNT  2017-01-25  XCKJCJWSR
6  2017-01-25 01:00:43  D5KVPH3H6  2017-01-25  XCKJCJWSR
7  2017-01-25 01:00:48  QZ98EIW2O  2017-01-25  XCKJCJWSR
8  2017-01-25 01:01:49  LBC4F46JG  2017-01-25  XCKJCJWSR
9  2017-01-25 02:01:49  PKGUHA9SS  2017-01-25  3XSN8RWEY
10 2017-01-25 03:15:24  8YD2DFLMZ  2017-01-25  UIQKQL9EH

在这里，您可以通过

pd.merge_asof(c.assign(date=c.datetime.dt.date), d.sort_values("datetime").assign(date=d.datetime.dt.date), on="datetime", allow_exact_matches=False , by = 'date')
Out[215]: 
              datetime        key        date      words
0  2017-01-25 00:30:17  LQE7GNC8O  2017-01-25        NaN
1  2017-01-25 00:30:18  IWK8UOOU1  2017-01-25        NaN
2  2017-01-25 00:30:46  MULAPBFTI  2017-01-25        NaN
3  2017-01-25 01:00:08  RO9N7X31Z  2017-01-25        NaN
4  2017-01-25 01:00:08  SDSFKA3LK  2017-01-25        NaN
5  2017-01-25 01:00:42  YRVASRCNT  2017-01-25  XCKJCJWSR
6  2017-01-25 01:00:43  D5KVPH3H6  2017-01-25  XCKJCJWSR
7  2017-01-25 01:00:48  QZ98EIW2O  2017-01-25  XCKJCJWSR
8  2017-01-25 01:01:49  LBC4F46JG  2017-01-25  XCKJCJWSR
9  2017-01-25 02:01:49  PKGUHA9SS  2017-01-25  3XSN8RWEY
10 2017-01-25 03:15:24  8YD2DFLMZ  2017-01-25  UIQKQL9EH

创建一个单独的日期列并在该列上合并创建一个单独的日期列并在该列上合并！但我注意到，‘assign’创建了df的一个副本，并添加了一个我需要删除的列。这不是一个大问题，而是一个考虑因素

pd.merge\u asof（c.assign（date=c.datetime.dt.date），d.sort\u value（“datetime”）。assign（date=d.datetime.dt.date），on=“datetime”，allow_-exact\u matches=False，by=“date”）。drop（'date'，1）

@MikeB2019xPerfect-ish！但我注意到，‘assign’创建了df的一个副本，并添加了一个我需要删除的列。这不是一个大问题，但需要考虑的是：pd.merge\u asof（c.assign（date=c.datetime.dt.date）、d.sort\u value（“datetime”）、assign（date=d.datetime.dt.date）、on=“datetime”、allow_exact\u matches=False、by=“date”）。drop（'date'，1）@MikeB2019x