Python 根据其他来源数据的时间频率插值每小时数据
我正在寻找根据其他数据源的时间频率以小时频率插入可用数据的建议 例如: 我有一个数据框,其中包含以下提到的每小时频率的天气测量值,以及间隔约为4到5分钟的传感器读数。因此,我想根据其他数据源传感器读数的时间频率转换我的天气测量值 熊猫可以用来代替pyspark吗?我知道那里有一些特点。非常感谢。 天气测量:Python 根据其他来源数据的时间频率插值每小时数据,python,pandas,pyspark,missing-data,Python,Pandas,Pyspark,Missing Data,我正在寻找根据其他数据源的时间频率以小时频率插入可用数据的建议 例如: 我有一个数据框,其中包含以下提到的每小时频率的天气测量值,以及间隔约为4到5分钟的传感器读数。因此,我想根据其他数据源传感器读数的时间频率转换我的天气测量值 熊猫可以用来代替pyspark吗?我知道那里有一些特点。非常感谢。 天气测量: +----------+----------------------+ |Wind_speed|Forecast_Time | +----------+-----------
+----------+----------------------+
|Wind_speed|Forecast_Time |
+----------+----------------------+
|22 |2019-01-29T15:00:00+00|
|17 |2019-01-29T16:00:00+00|
|23 |2019-01-29T17:00:00+00|
|11 |2019-01-29T18:00:00+00|
|10 |2019-01-29T19:00:00+00|
+----------+----------------------+
传感器读数:
+----------------------+-----------+------+
|DateTime |Total count|Avail |
+----------------------+-----------+------+
|2019-01-29T15:24:02+00|45 |350 |
|2019-01-29T15:20:19+00|511 |710 |
|2019-01-29T15:24:02+00|131 |352 |
|2019-01-29T15:24:02+00|134 |376 |
|2019-01-29T15:24:02+00|69 |436 |
|2019-01-29T15:20:24+00|472 |935 |
|2019-01-29T15:24:06+00|138 |330 |
|2019-01-29T15:24:06+00|415 |749 |
|2019-01-29T15:29:02+00|45 |350 |
|2019-01-29T15:20:19+00|511 |710 |
+----------------------+-----------+------+
结果可能是这样的:
+----------+----------------------+
|Wind_speed|Forecast_Time |
+----------+----------------------+
|22 |2019-01-29T15:24:02+00|
|17 |2019-01-29T15:20:01+00|
|17 |2019-01-29T15:24:00+00|
|11 |2019-01-29T15:29:06+00|
|10 |2019-01-29T15:20:00+00|
+----------+----------------------+
如果你知道如何在pandas中实现,那么只需创建函数并使用pandas_udf如果你知道如何在pandas中实现,那么只需创建函数并使用感谢@Steven即可。我试过了,结果有点奇怪。因为有太多的空值。任何建议,我想知道为什么有人不喜欢这个职位如果你能告诉我们你做了什么,那将是一个好的开始。就这样,我们真的帮不了你@史蒂文:谢谢你的支持。实验是成功的,我唯一缺少的就是在插值之前进行排序,之后它工作得很好。再次感谢