Machine learning 基于决策树的模型能预测未来吗?

Machine learning 基于决策树的模型能预测未来吗?,machine-learning,random-forest,decision-tree,extrapolation,Machine Learning,Random Forest,Decision Tree,Extrapolation,我试图建立一个模型,预测每月、每周和每天的运输量。 我发现基于决策树的模型比线性回归更有效 但我读了一些关于机器学习的文章,上面说基于决策树的模型不能预测未来哪个模型没有学习。(外推问题) 因此,我认为这意味着,如果数据分布在列车数据的日期之间,则模型可以很好地预测,但如果数据的日期超出范围,则无法预测 我想确认我的理解是否正确。 一些帖子显示使用随机森林模型对基于日期时间的数据进行预测,这让我感到困惑 另外,请让我知道是否有任何方法可以克服基于决策树模型的外推问题 这取决于数据。 决策树预测[

我试图建立一个模型,预测每月、每周和每天的运输量。 我发现基于决策树的模型比线性回归更有效

但我读了一些关于机器学习的文章,上面说基于决策树的模型不能预测未来哪个模型没有学习。(外推问题)

因此,我认为这意味着,如果数据分布在列车数据的日期之间,则模型可以很好地预测,但如果数据的日期超出范围,则无法预测

我想确认我的理解是否正确。 一些帖子显示使用随机森林模型对基于日期时间的数据进行预测,这让我感到困惑

另外,请让我知道是否有任何方法可以克服基于决策树模型的外推问题

这取决于数据。 决策树预测[训练数据的类值最小值,训练数据的类值最大值]范围内任何样本的类值。例如,假设有五个样本[(X1,Y1),(X2,Y2),…,(X5,Y5)],经过良好训练的树有两个决策节点。第一节点N1包括(X1,Y1)、(X2,Y2),另一节点N2包括(X3,Y3)、(X4,Y4)和(X5,Y5)。然后,当样本达到N1时,树将预测一个新样本为Y1和Y2的平均值,但当样本达到N2时,树将预测一个新样本为Y3、Y4、Y5的人


因此,如果新样本的类值可能大于训练数据类值的最大值,或者可能小于训练数据类值的最小值,则不建议使用决策树。另外,基于树的模型(如随机森林)表现出良好的性能

这里可能存在不同形式的外推问题。 如前所述,用于分类的经典决策树只能预测其在训练/创建过程中遇到的值。从这个意义上讲,您不会预测任何以前看不见的值。 如果让分类器预测相对更新而不是绝对值,则可以解决此问题。但是,您需要对数据有一些了解,以确定什么最适合不同的情况。 对于用于回归的决策树,情况类似

“外推”的下一个问题是,如果您的培训数据的统计数据随时间而变化,那么决策树的性能可能会很差。再次,我建议预测更新关系。 否则,基于最近训练数据的预测可能会产生更好的预测。由于单个决策树不能以在线方式进行训练,因此您必须每x个时间步创建一个新的决策树


更进一步说,我想说的是,您需要开始在状态机中思考,并尝试使用您的分类器进行状态预测。但从我上次检查时起,这是一个相当未知的决策树理论领域。如果您已经考虑了一些数据关系的模型,这将更好地工作。

我对决策树不是特别熟悉,但一般来说:这取决于您建模的内容。为了知道你的模型是否能预测未来,你需要知道未来。