Machine learning 机器学习-哪种方法最适合从各种重要特征预测离散、连续的解决方案？_Machine Learning_Feature Selection

Machine learning 机器学习-哪种方法最适合从各种重要特征预测离散、连续的解决方案？

machine-learning

Machine learning 机器学习-哪种方法最适合从各种重要特征预测离散、连续的解决方案？,machine-learning,feature-selection,Machine Learning,Feature Selection,我需要想出一个公式，它需要N个输入，并计算一个数字，尽可能多地预测“正确”答案。每个输入都是一个十进制值或整数。输出也是一个十进制值我有一个荒谬的数据量（认为它是无限的）。在每种情况下，我都有所有输入的值和正确的输出值这些特征都是相互关联的（即当一个较高时，另一个较低时），它们与答案的关联程度不同没有“完美”的公式，但应该有一个在许多具有统计意义的情况下都适用的公式。如果我有一个“最佳”解决方案，它可能是非线性和离散的。然而，这是一次性计算哪种机器学习解决方案最适合于获取这些类型的特征，

我需要想出一个公式，它需要N个输入，并计算一个数字，尽可能多地预测“正确”答案。每个输入都是一个十进制值或整数。输出也是一个十进制值

我有一个荒谬的数据量（认为它是无限的）。在每种情况下，我都有所有输入的值和正确的输出值

这些特征都是相互关联的（即当一个较高时，另一个较低时），它们与答案的关联程度不同

没有“完美”的公式，但应该有一个在许多具有统计意义的情况下都适用的公式。如果我有一个“最佳”解决方案，它可能是非线性和离散的。然而，这是一次性计算

哪种机器学习解决方案最适合于获取这些类型的特征，并创建一个精确的ish模型来表示如此复杂、有些随机的数据

编辑：再做一些研究，似乎任何一种线性回归都会失败。神经网络看起来是最好的选择，但我不知道它们是否能够预测这个在不同范围内具有不同公式的“离散”函数。

拥有几乎无限量的训练和测试数据是一个巨大的优势。线性回归不太可能对您描述的不规则函数有用，但在完全注销之前，您可能希望查看衍生特征上的回归，而不是输入本身。径向偏置函数有时在基本N输入的地方或之外很有用

然而，我的建议是看看回归树，特别是随机森林

回归树基本上是决策树，从根开始，对N个输入中的一个进行比较，以选择要遵循的分支。这将一直持续，直到到达树的一片叶子，该叶子具有与其关联的线性模型。在最简单的情况下，这可能只是一个常量值函数，表示在该叶中结束的数据的平均值，但更复杂的学习算法将尝试为该叶选择一个线性模型，该模型将最小化该叶的预期平方误差（例如，在N个输入值的某些子集上的岭回归）

针对您的问题使用回归树的优点是，该树将您的输入划分为不同的区域，在这些区域中可以应用不同的公式。有足够的区域，线性函数可以逼近非常复杂的函数

回归树确实存在一些问题。定义区域的决策边界附近的模型行为可能会发生数据不支持的不现实的跳跃。此外，他们可能会有一些统计问题。通过使用随机森林，这两个问题都大大缓解了

随机林中的每棵树都是由一组唯一的引导数据创建的。通常，此引导集是通过从训练数据中随机抽取一个替换样本来创建的，但在您独特的情况下，您可以通过随机抽取一组新的训练数据来创建林中的每棵树来改进这一点。然后，在树的生长过程中，在每个节点上分支树的决策变量在该唯一节点上被限制为N个变量的随机子集。由于森林中的每棵树都是从不同的数据集创建的，并且可能在不同的数据上分支，因此回归树的弱点是分布的。要进行预测，需要向森林中的每棵树提供输入，并通过平均所有树的结果来获得答案。这也回避了回归树可能存在的统计问题

随机森林被认为是许多测试问题的较好回归技术之一

（见《统计学习要素：数据挖掘、推理和预测》第二版——特雷弗·黑斯蒂、罗伯特·蒂布什拉尼、杰罗姆·弗里德曼、斯普林格2008。）

或者更狭隘一点，微软技术报告决策森林用于分类、回归、密度估计、流形学习和半监督学习