Statistics 确定某些函数的系数_Statistics_Regression_Data Processing

Statistics 确定某些函数的系数

statistics

Statistics 确定某些函数的系数,statistics,regression,data-processing,Statistics,Regression,Data Processing,我有一项任务可能与数据分析甚至神经网络有关我们有一个合作伙伴的数据源，工作门户。源值是与特定员工相关的不同属性的数组：他/她的性别年龄多年的经验投资组合（完成的项目数量）专业和专业（网页设计、网页编程、管理等）其他许多（总共约20-30个）每个员工都有自己的工资（小时）率。所以，在数学上，我们有一些函数 F（attr1，attr2，attr3，…）=A*attr1+B*attr2+C*attr3+ 系数未知。但是我们知道指定参数的函数结果（比如说，我们知道一个有20年经验、在

我有一项任务可能与数据分析甚至神经网络有关

我们有一个合作伙伴的数据源，工作门户。源值是与特定员工相关的不同属性的数组：

他/她的性别
年龄
多年的经验
投资组合（完成的项目数量）
专业和专业（网页设计、网页编程、管理等）
其他许多（总共约20-30个）

每个员工都有自己的工资（小时）率。所以，在数学上，我们有一些函数

F（attr1，attr2，attr3，…）=A*attr1+B*attr2+C*attr3+

系数未知。但是我们知道指定参数的函数结果（比如说，我们知道一个有20年经验、在公文包中工作过10次的男性程序员的费率是每小时40美元）

所以我们必须找到这些系数（A，B，C…），这样我们就可以预测任何员工的工资。这是最重要的目标

另一个目标是找出哪些参数最重要——换句话说，哪一个参数会对函数的结果产生重大的变化。所以最后我们必须有这样的东西：“最重要的属性是多年的经验，然后是投资组合，然后是年龄等等。”

可能会有这样一种情况，不同的职业之间差异太大——例如，我们可能根本无法将网页设计师与经理进行比较。在这种情况下，我们必须按组对其进行分割，并分别计算每组的评分。但最终我们需要找到对每个群体来说都很常见的“共享”论点

我在考虑神经网络，因为它是他们可以处理的东西。但我对他们完全陌生，完全不知道该怎么办

我非常感谢任何帮助-使用什么仪器，什么算法，甚至伪代码样本等等

非常感谢。

这是（线性）回归最基本的例子。您正在使用线性函数对数据建模，并且需要估计参数

注意，这实际上是经典数理统计的一部分；现在还不是数据挖掘，但要老得多

有多种方法。考虑到可能存在异常值，我建议使用RANSAC

至于重要性，这不是归结为“哪个最大，A B还是C”

搜索词：线性回归、最小二乘和正态方程。好的，谢谢DrC！我试着用谷歌搜索一下。