Statistics 确定某些函数的系数

Statistics 确定某些函数的系数,statistics,regression,data-processing,Statistics,Regression,Data Processing,我有一项任务可能与数据分析甚至神经网络有关 我们有一个合作伙伴的数据源,工作门户。源值是与特定员工相关的不同属性的数组: 他/她的性别 年龄 多年的经验 投资组合(完成的项目数量) 专业和专业(网页设计、网页编程、管理等) 其他许多(总共约20-30个) 每个员工都有自己的工资(小时)率。所以,在数学上,我们有一些函数 F(attr1,attr2,attr3,…)=A*attr1+B*attr2+C*attr3+ 系数未知。但是我们知道指定参数的函数结果(比如说,我们知道一个有20年经验、在

我有一项任务可能与数据分析甚至神经网络有关

我们有一个合作伙伴的数据源,工作门户。源值是与特定员工相关的不同属性的数组:

  • 他/她的性别
  • 年龄
  • 多年的经验
  • 投资组合(完成的项目数量)
  • 专业和专业(网页设计、网页编程、管理等)
  • 其他许多(总共约20-30个)
每个员工都有自己的工资(小时)率。所以,在数学上,我们有一些函数

F(attr1,attr2,attr3,…)=A*attr1+B*attr2+C*attr3+

系数未知。但是我们知道指定参数的函数结果(比如说,我们知道一个有20年经验、在公文包中工作过10次的男性程序员的费率是每小时40美元)

所以我们必须找到这些系数(A,B,C…),这样我们就可以预测任何员工的工资。这是最重要的目标

另一个目标是找出哪些参数最重要——换句话说,哪一个参数会对函数的结果产生重大的变化。所以最后我们必须有这样的东西:“最重要的属性是多年的经验,然后是投资组合,然后是年龄等等。”

可能会有这样一种情况,不同的职业之间差异太大——例如,我们可能根本无法将网页设计师与经理进行比较。在这种情况下,我们必须按组对其进行分割,并分别计算每组的评分。但最终我们需要找到对每个群体来说都很常见的“共享”论点

我在考虑神经网络,因为它是他们可以处理的东西。但我对他们完全陌生,完全不知道该怎么办

我非常感谢任何帮助-使用什么仪器,什么算法,甚至伪代码样本等等


非常感谢。

这是(线性)回归最基本的例子。您正在使用线性函数对数据建模,并且需要估计参数

注意,这实际上是经典数理统计的一部分;现在还不是数据挖掘,但要老得多

有多种方法。考虑到可能存在异常值,我建议使用RANSAC


至于重要性,这不是归结为“哪个最大,A B还是C”

搜索词:线性回归、最小二乘和正态方程。好的,谢谢DrC!我试着用谷歌搜索一下。