Machine learning 标准差缩减的回归树_Machine Learning_Supervised Learning

Machine learning 标准差缩减的回归树

machine-learning

Machine learning 标准差缩减的回归树,machine-learning,supervised-learning,Machine Learning,Supervised Learning,我有一个1k记录的数据集，我的工作是根据这些记录做一个决策算法。以下是我可以分享的：目标是一个连续值一些预测值（或属性）是连续值，其中有些是离散的，有些是离散值数组（可以有多个选项）我最初的想法是分离离散值的数组，并使它们成为单独的特征（预测值）。对于预测值中的连续值，我想随机选取几个决策边界，看看哪一个降低熵最大。然后创建一个决策树（或随机林），在创建树时使用标准差缩减我的问题是：我走的路对吗？有更好的方法吗？我知道这可能来得有点晚，但您正在搜索的是模型树。模型树是决策树，在叶子

我有一个1k记录的数据集，我的工作是根据这些记录做一个决策算法。以下是我可以分享的：

目标是一个连续值

一些预测值（或属性）是连续值，其中有些是离散的，有些是离散值数组（可以有多个选项）

我最初的想法是分离离散值的数组，并使它们成为单独的特征（预测值）。对于预测值中的连续值，我想随机选取几个决策边界，看看哪一个降低熵最大。然后创建一个决策树（或随机林），在创建树时使用标准差缩减

我的问题是：我走的路对吗？有更好的方法吗？

我知道这可能来得有点晚，但您正在搜索的是模型树。模型树是决策树，在叶子中的连续评分比分类值高。通常，这些值是通过线性回归模型预测的。Quinlan介绍的M5模型树是一种比较突出的模型树，它或多或少适合您的需要。Wang和Witten重新实现了M5，并扩展了其功能，使其能够处理连续属性和分类属性。他们的版本称为M5'，您可以在中找到一个实现，例如。剩下的就是处理数组了。然而，你的描述在这方面有点笼统。从我收集的信息来看，你的选择要么是扁平化的，要么如你所建议的那样，将它们分开

注意，自从Wang和Witten的工作以来，引入了更复杂的模型树。然而，M5'是健壮的，在其原始公式中不需要任何参数化，这使得它易于使用