Numpy 哪种模型最适合半正弦数据?

Numpy 哪种模型最适合半正弦数据?,numpy,statistics,analytics,modeling,linear-regression,Numpy,Statistics,Analytics,Modeling,Linear Regression,我有一份记录,记录了某一特定站点的月最高和最低温度。记录显示了从1908年1月到2012年3月的每月信息。然而,一些温度值已被忽略 Sample Data yyyy month tmax tmin 1908 January 5.0 -1.4 1908 February 7.3 1.9 1908 March 6.2 0.3 1908 April Missing_1 2.1 1908

我有一份记录,记录了某一特定站点的月最高和最低温度。记录显示了从1908年1月到2012年3月的每月信息。然而,一些温度值已被忽略

Sample Data    
    yyyy    month   tmax    tmin
    1908    January 5.0 -1.4
    1908    February    7.3 1.9
    1908    March   6.2 0.3
    1908    April   Missing_1   2.1
    1908    May Missing_2   7.7
    1908    June    17.7    8.7
    1908    July    Missing_3   11.0
    1908    August  17.5    9.7
    1908    September   16.3    8.4
    1908    October 14.6    8.0
    1908    November    9.6 3.4
    1908    December    5.8 Missing_4
    1909    January 5.0 0.1
    1909    February    5.5 -0.3
    1909    March   5.6 -0.3
    1909    April   12.2    3.3
    1909    May 14.7    4.8
    1909    June    15.0    7.5
    1909    July    17.3    10.8
    1909    August  18.8    10.7 

我想找出缺少的值。哪种模型最适合这种问题?我在这里尝试使用多元线性回归。这是一个正确的方法吗?

这是一个经验问题。线性回归是一个很好的起点。如果数据具有非线性形状,您可能会发现变换特征/输出允许您拟合线性模型


我建议你想出一些办法,对当前值的条目进行交叉验证。用这个来改进你的方法。如果合理地假设缺失值与当前值具有相同的分布(即缺失值中不存在系统偏差,如极端温度下的设备故障)那么交叉验证误差应该是判断缺失数据插补质量的合理方法。

这里有很多选择。本质上,每种不同的插补方法都对应于关于连续值如何相关的不同假设。最好对这些关系做出明确的假设,并从中推导出方法;这将是一种贝叶斯推理方法。除此之外,可能局部回归方法,如LOWESS和Gaussian过程回归是合适的。GP回归实际上非常简单,可以产生每个值的不确定性以及点估计。在网络上搜索这些术语中的任何一个都会获得大量的点击率。