Machine learning 基于决策树的模型能预测未来吗？_Machine Learning_Random Forest_Decision Tree_Extrapolation

Machine learning 基于决策树的模型能预测未来吗？

machine-learning

Machine learning 基于决策树的模型能预测未来吗？,machine-learning,random-forest,decision-tree,extrapolation,Machine Learning,Random Forest,Decision Tree,Extrapolation,我试图建立一个模型，预测每月、每周和每天的运输量。我发现基于决策树的模型比线性回归更有效但我读了一些关于机器学习的文章，上面说基于决策树的模型不能预测未来哪个模型没有学习。（外推问题）因此，我认为这意味着，如果数据分布在列车数据的日期之间，则模型可以很好地预测，但如果数据的日期超出范围，则无法预测我想确认我的理解是否正确。一些帖子显示使用随机森林模型对基于日期时间的数据进行预测，这让我感到困惑另外，请让我知道是否有任何方法可以克服基于决策树模型的外推问题这取决于数据。决策树预测[

我试图建立一个模型，预测每月、每周和每天的运输量。我发现基于决策树的模型比线性回归更有效

但我读了一些关于机器学习的文章，上面说基于决策树的模型不能预测未来哪个模型没有学习。（外推问题）

因此，我认为这意味着，如果数据分布在列车数据的日期之间，则模型可以很好地预测，但如果数据的日期超出范围，则无法预测

我想确认我的理解是否正确。一些帖子显示使用随机森林模型对基于日期时间的数据进行预测，这让我感到困惑

另外，请让我知道是否有任何方法可以克服基于决策树模型的外推问题

这取决于数据。决策树预测[训练数据的类值最小值，训练数据的类值最大值]范围内任何样本的类值。例如，假设有五个样本[（X1，Y1），（X2，Y2），…，（X5，Y5）]，经过良好训练的树有两个决策节点。第一节点N1包括（X1，Y1）、（X2，Y2），另一节点N2包括（X3，Y3）、（X4，Y4）和（X5，Y5）。然后，当样本达到N1时，树将预测一个新样本为Y1和Y2的平均值，但当样本达到N2时，树将预测一个新样本为Y3、Y4、Y5的人

因此，如果新样本的类值可能大于训练数据类值的最大值，或者可能小于训练数据类值的最小值，则不建议使用决策树。另外，基于树的模型（如随机森林）表现出良好的性能

这里可能存在不同形式的外推问题。如前所述，用于分类的经典决策树只能预测其在训练/创建过程中遇到的值。从这个意义上讲，您不会预测任何以前看不见的值。如果让分类器预测相对更新而不是绝对值，则可以解决此问题。但是，您需要对数据有一些了解，以确定什么最适合不同的情况。对于用于回归的决策树，情况类似

“外推”的下一个问题是，如果您的培训数据的统计数据随时间而变化，那么决策树的性能可能会很差。再次，我建议预测更新关系。否则，基于最近训练数据的预测可能会产生更好的预测。由于单个决策树不能以在线方式进行训练，因此您必须每x个时间步创建一个新的决策树

更进一步说，我想说的是，您需要开始在状态机中思考，并尝试使用您的分类器进行状态预测。但从我上次检查时起，这是一个相当未知的决策树理论领域。如果您已经考虑了一些数据关系的模型，这将更好地工作。

我对决策树不是特别熟悉，但一般来说：这取决于您建模的内容。为了知道你的模型是否能预测未来，你需要知道未来。