Math 皮尔逊';ApacheMahout中的s系数

Math 皮尔逊';ApacheMahout中的s系数,math,statistics,mahout,pearson,Math,Statistics,Mahout,Pearson,这个问题是关于ApacheMahout的推荐部分,它使用Pearson系数来衡量用户之间的相似性。根据我的理解,以下是皮尔逊系数如何衡量用户之间的相似性 假设2个用户对5个项目a、b、c、d和e评分。假设他们的评级是a1、b1、c1、d1、e1和a2、b2、c2、d2、e2。现在,皮尔逊系数给出了考虑点(a1,a2),(b1,b2),(c1,c2),(d1,d2)和(e1,e2)的最小二乘直线拟合的估计值。我理解这样做的主要目的(基于我在其他地方的阅读)是为了表示能够预测其他用户对任何对象的评级

这个问题是关于ApacheMahout的推荐部分,它使用Pearson系数来衡量用户之间的相似性。根据我的理解,以下是皮尔逊系数如何衡量用户之间的相似性

假设2个用户对5个项目a、b、c、d和e评分。假设他们的评级是a1、b1、c1、d1、e1和a2、b2、c2、d2、e2。现在,皮尔逊系数给出了考虑点(a1,a2),(b1,b2),(c1,c2),(d1,d2)和(e1,e2)的最小二乘直线拟合的估计值。我理解这样做的主要目的(基于我在其他地方的阅读)是为了表示能够预测其他用户对任何对象的评级的准确性,给定当前用户的评级。现在,如果点位于一条直线上,这意味着您可以根据当前用户的评分预测其他人的评分。所以,系数应该是1。另一方面,如果点不在直线上,则最小二乘拟合以-1到1的比例表示,0表示它们完全偏移,没有任何关系,1/-1表示完美拟合

现在,我的问题是,为什么只有直线?例如,为什么我们不能确定它们是否位于抛物线上,然后相应地计算一个类似的系数(关于抛物线的拟合程度)?为什么我们只检查直线拟合

谢谢
阿披舍克S

这就是皮尔逊相关系数的定义

这是一个可能的相似性度量,它实际上是衡量两组偏好按比例移动的程度。如果您认为此假设适用于您的数据集,那么它将是一个合理的度量。如果不是,你会使用另一个指标

当然,您可以通过其他方式实现定义相似性的相似性度量

但是,在实践中,为什么另一种关系在这里有意义呢?相似性应该是对称的,两组偏好不能各自与另一组的平方成正比。我认为共同的线性关系是合理的


当然,还有很多其他相似性度量,可以说更好,与评估这样的关系无关,比如对数似然比。

皮尔逊系数假设为线性关系,这就是它的方式。如果你想对曲线建模,你可以使用线性回归加上一些术语,比如$y~x+x^2+x^3$。