在Python中,如何使用最小二乘算法通过线性方程匹配两个数据集
我有两个一维向量。其中一个包含通过测量系统测量的数据。另一个向量包含一种校准数据,在“形状”和时间上完全相同(基本上是一个单一脉冲,在两个向量中,这些脉冲在时域中同步) 我想通过对原始数据=(校准数据-偏移)*增益的简单转换,将校准数据曲线与原始测量数据进行匹配 我需要使用“最佳方法”找到偏移和增益参数,以便两条记录道看起来尽可能相似。为此,我认为两个数据集的最小二乘标量和(F(增益,偏移)(校准)测量值*2)必须最小化。最小化可以通过调整变换函数的增益和偏移来实现 我已经实现了这种暴力算法:在Python中,如何使用最小二乘算法通过线性方程匹配两个数据集,python,algorithm,numpy,least-squares,data-fitting,Python,Algorithm,Numpy,Least Squares,Data Fitting,我有两个一维向量。其中一个包含通过测量系统测量的数据。另一个向量包含一种校准数据,在“形状”和时间上完全相同(基本上是一个单一脉冲,在两个向量中,这些脉冲在时域中同步) 我想通过对原始数据=(校准数据-偏移)*增益的简单转换,将校准数据曲线与原始测量数据进行匹配 我需要使用“最佳方法”找到偏移和增益参数,以便两条记录道看起来尽可能相似。为此,我认为两个数据集的最小二乘标量和(F(增益,偏移)(校准)测量值*2)必须最小化。最小化可以通过调整变换函数的增益和偏移来实现 我已经实现了这种暴力算法:
offset = 0
gain = 1.0
firstIteration = True
lastlstsq = 0
iterations = 0
for ioffset in np.arange(-32768, 32768, 50):
for igain in np.arange(1,5,0.1):
# prepare the trace by transformation:
int1 = map(lambda c: (c - ioffset) * igain, self.fetcher.yvalues['int1'])
# this is pretty heavy computation here
lstsq = sum(map(lambda c: c**2, map(sub, self.fetcher.yvalues['int0'],int1)))
if firstIteration == True:
# just store
lastlstsq = lstsq
offset = ioffset
gain = igain
firstIteration = False
else:
# what lstsq:
if lstsq < lastlstsq:
# got better match:
lastlstsq = lstsq
offset = ioffset
gain = igain
print "Iteration ", iterations, " squares=", lstsq, " offset=", offset, " gain=", gain
iterations = iterations + 1
offset=0
增益=1.0
第一次迭代=真
lastlstsq=0
迭代次数=0
对于np.arange中的ioffset(-327683276850):
对于np.arange中的igain(1,5,0.1):
#通过转换准备跟踪:
int1=map(lambda c:(c-ioffset)*igain,self.fetcher.yvalues['int1'])
#这里的计算相当繁重
lstsq=sum(map(lambda c:c**2,map(sub,self.fetcher.yvalues['int0'],int1)))
如果firstIteration==True:
#只是储存
lastsq=lstsq
偏移量=偏移量
增益=igain
第一次迭代=错误
其他:
#什么是lstsq:
如果lstsq
它找到了最好的匹配,但是它太慢了,不是很精确,因为我想找到0.01步的igain和0.5步的ioffset。对于这种分辨率,这种算法是完全无用的
有没有办法以一种类似于蟒蛇的方式解决这种优化问题?(或者有没有更好的方法来找到增益和偏移的值以实现最佳匹配?)
不幸的是,我仅限于numpy(无scipy),但任何类型的提示都值得欣赏。如果两个信号应该是相同的形状,只是y移位和y缩放,您应该会发现
gain = std_dev(measured) / std_dev(calibration)
offset = average(calibration - (measured / gain))
如果您对表单的解决方案感到满意
measuredData = calibration data*gain + offset
在简单的线性回归问题中寻找解决方案。这可能是最好的解决办法,使用,这将给你一个适合,最大限度地减少平方和误差,这是我认为你所追求的
具体地说,在python中,我想可以使用numpy函数找到解决方案
希望这有帮助。很抱歉,我没有时间仔细检查代码是否有效:)在用户3235916的帮助下,我成功地写下了以下代码:
import numpy as np
measuredData = np.array(yvalues['int1'])
calibrationData = np.array(yvalues['int0'])
A = np.vstack( [measuredData, np.ones(len(measuredData))]).T
gain,offset = np.linalg.lstsq(A, calibrationData)[0]
然后,我可以使用以下转换将测量数据重新计算为校准数据:
map(lambda c: c*gain+offset, measuredData)
非常适合(至少在视觉上是如此)。这是“完全”相同的形状,或者测量数据中可能存在噪音?听起来你需要研究卷积和相关性……我似乎太模糊了,没有说这两个信号是相同的。事实上,这两个信号都给它们施加了噪音。校准信号噪声可以平均到适当的SNR,但测量信号包含系统噪声,即使平均后,也会置换噪声底的平均值。这就是为什么我不能使用Hugh提出的简单近似法,我正在使用最小二乘法寻找最佳匹配
map(lambda c: c*gain+offset, measuredData)