在Python中，如何使用最小二乘算法通过线性方程匹配两个数据集_Python_Algorithm_Numpy_Least Squares_Data Fitting

在Python中，如何使用最小二乘算法通过线性方程匹配两个数据集

python algorithm numpy

在Python中，如何使用最小二乘算法通过线性方程匹配两个数据集,python,algorithm,numpy,least-squares,data-fitting,Python,Algorithm,Numpy,Least Squares,Data Fitting,我有两个一维向量。其中一个包含通过测量系统测量的数据。另一个向量包含一种校准数据，在“形状”和时间上完全相同（基本上是一个单一脉冲，在两个向量中，这些脉冲在时域中同步）我想通过对原始数据=（校准数据-偏移）*增益的简单转换，将校准数据曲线与原始测量数据进行匹配我需要使用“最佳方法”找到偏移和增益参数，以便两条记录道看起来尽可能相似。为此，我认为两个数据集的最小二乘标量和（F（增益，偏移）（校准）测量值*2）必须最小化。最小化可以通过调整变换函数的增益和偏移来实现我已经实现了这种暴力算法：

我有两个一维向量。其中一个包含通过测量系统测量的数据。另一个向量包含一种校准数据，在“形状”和时间上完全相同（基本上是一个单一脉冲，在两个向量中，这些脉冲在时域中同步）

我想通过对原始数据=（校准数据-偏移）*增益的简单转换，将校准数据曲线与原始测量数据进行匹配

我需要使用“最佳方法”找到偏移和增益参数，以便两条记录道看起来尽可能相似。为此，我认为两个数据集的最小二乘标量和（F（增益，偏移）（校准）测量值*2）必须最小化。最小化可以通过调整变换函数的增益和偏移来实现

我已经实现了这种暴力算法：

    offset = 0
    gain = 1.0
    firstIteration = True
    lastlstsq = 0
    iterations = 0

    for ioffset in np.arange(-32768, 32768, 50):
        for igain in np.arange(1,5,0.1):
            # prepare the trace by transformation:
            int1 = map(lambda c: (c - ioffset) * igain, self.fetcher.yvalues['int1'])

            # this is pretty heavy computation here
            lstsq = sum(map(lambda c: c**2, map(sub, self.fetcher.yvalues['int0'],int1)))
            if firstIteration == True:
                # just store
                lastlstsq = lstsq
                offset = ioffset
                gain = igain
                firstIteration = False
            else:
                # what lstsq:
                if lstsq < lastlstsq:
                    # got better match:
                    lastlstsq = lstsq
                    offset = ioffset
                    gain = igain
                    print "Iteration ", iterations, " squares=", lstsq, " offset=", offset, " gain=", gain
            iterations = iterations + 1

offset=0
增益=1.0
第一次迭代=真
lastlstsq=0
迭代次数=0
对于np.arange中的ioffset（-327683276850）：
对于np.arange中的igain（1,5,0.1）：
#通过转换准备跟踪：
int1=map（lambda c:（c-ioffset）*igain，self.fetcher.yvalues['int1']）
#这里的计算相当繁重
lstsq=sum（map（lambda c:c**2，map（sub，self.fetcher.yvalues['int0']，int1）））
如果firstIteration==True：
#只是储存
lastsq=lstsq
偏移量=偏移量
增益=igain
第一次迭代=错误
其他：
#什么是lstsq：
如果lstsq


它找到了最好的匹配，但是它太慢了，不是很精确，因为我想找到0.01步的igain和0.5步的ioffset。对于这种分辨率，这种算法是完全无用的
有没有办法以一种类似于蟒蛇的方式解决这种优化问题？（或者有没有更好的方法来找到增益和偏移的值以实现最佳匹配？）
不幸的是，我仅限于numpy（无scipy），但任何类型的提示都值得欣赏。
如果两个信号应该是相同的形状，只是y移位和y缩放，您应该会发现
gain   = std_dev(measured) / std_dev(calibration)
offset = average(calibration - (measured / gain))

如果您对表单的解决方案感到满意
measuredData = calibration data*gain + offset

在简单的线性回归问题中寻找解决方案。这可能是最好的解决办法，使用，这将给你一个适合，最大限度地减少平方和误差，这是我认为你所追求的
具体地说，在python中，我想可以使用numpy函数找到解决方案
希望这有帮助。很抱歉，我没有时间仔细检查代码是否有效：）
在用户3235916的帮助下，我成功地写下了以下代码：
import numpy as np

measuredData = np.array(yvalues['int1'])
calibrationData = np.array(yvalues['int0'])

A = np.vstack( [measuredData, np.ones(len(measuredData))]).T
gain,offset = np.linalg.lstsq(A, calibrationData)[0]

然后，我可以使用以下转换将测量数据重新计算为校准数据：
map(lambda c: c*gain+offset, measuredData)

非常适合（至少在视觉上是如此）。这是“完全”相同的形状，或者测量数据中可能存在噪音？听起来你需要研究卷积和相关性……我似乎太模糊了，没有说这两个信号是相同的。事实上，这两个信号都给它们施加了噪音。校准信号噪声可以平均到适当的SNR，但测量信号包含系统噪声，即使平均后，也会置换噪声底的平均值。这就是为什么我不能使用Hugh提出的简单近似法，我正在使用最小二乘法寻找最佳匹配
map(lambda c: c*gain+offset, measuredData)