Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/objective-c/27.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 标准差缩减的回归树_Machine Learning_Supervised Learning - Fatal编程技术网

Machine learning 标准差缩减的回归树

Machine learning 标准差缩减的回归树,machine-learning,supervised-learning,Machine Learning,Supervised Learning,我有一个1k记录的数据集,我的工作是根据这些记录做一个决策算法。 以下是我可以分享的: 目标是一个连续值 一些预测值(或属性)是连续值, 其中有些是离散的,有些是离散值数组 (可以有多个选项) 我最初的想法是分离离散值的数组,并使它们成为单独的特征(预测值)。对于预测值中的连续值,我想随机选取几个决策边界,看看哪一个降低熵最大。然后创建一个决策树(或随机林),在创建树时使用标准差缩减 我的问题是:我走的路对吗?有更好的方法吗?我知道这可能来得有点晚,但您正在搜索的是模型树。模型树是决策树,在叶子

我有一个1k记录的数据集,我的工作是根据这些记录做一个决策算法。 以下是我可以分享的:

  • 目标是一个连续值

  • 一些预测值(或属性)是连续值, 其中有些是离散的,有些是离散值数组 (可以有多个选项)

  • 我最初的想法是分离离散值的数组,并使它们成为单独的特征(预测值)。对于预测值中的连续值,我想随机选取几个决策边界,看看哪一个降低熵最大。然后创建一个决策树(或随机林),在创建树时使用标准差缩减


    我的问题是:我走的路对吗?有更好的方法吗?

    我知道这可能来得有点晚,但您正在搜索的是模型树。模型树是决策树,在叶子中的连续评分比分类值高。通常,这些值是通过线性回归模型预测的。Quinlan介绍的M5模型树是一种比较突出的模型树,它或多或少适合您的需要。Wang和Witten重新实现了M5,并扩展了其功能,使其能够处理连续属性和分类属性。他们的版本称为M5',您可以在中找到一个实现,例如。剩下的就是处理数组了。然而,你的描述在这方面有点笼统。从我收集的信息来看,你的选择要么是扁平化的,要么如你所建议的那样,将它们分开

    注意,自从Wang和Witten的工作以来,引入了更复杂的模型树。然而,M5'是健壮的,在其原始公式中不需要任何参数化,这使得它易于使用