Machine learning 随机林的混合谓词类型_Machine Learning_Classification_Random Forest_Feature Selection

Machine learning 随机林的混合谓词类型

machine-learning

Machine learning 随机林的混合谓词类型,machine-learning,classification,random-forest,feature-selection,Machine Learning,Classification,Random Forest,Feature Selection,我正在尝试为一个包含5个谓词变量的数据集建立一个使用随机林的分类模型。两个谓词变量为连续类型，一个可以是间隔[0，1000]的实数，另一个可以是[-10，10]的实数；一个谓词变量的整数值为[10000，15000]。此外，剩下的两个谓词变量是分类值，即{A，B，C，D，ef}和{NY，LA，Chicago}。对这些不同的谓词类型进行预处理是否需要任何程序？许多穷举搜索算法将偏向于具有许多值的变量。如本文所述，分离变量选择和拆分选择过程似乎有助于实现这一点。它们也在R中实现了一个。我不知道如何使

我正在尝试为一个包含5个谓词变量的数据集建立一个使用随机林的分类模型。两个谓词变量为连续类型，一个可以是间隔

[0，1000]

的实数，另一个可以是

[-10，10]

的实数；一个谓词变量的整数值为

[10000，15000]

。此外，剩下的两个谓词变量是分类值，即

{A，B，C，D，ef}

和

{NY，LA，Chicago}

。对这些不同的谓词类型进行预处理是否需要任何程序？

许多穷举搜索算法将偏向于具有许多值的变量。如本文所述，分离变量选择和拆分选择过程似乎有助于实现这一点。它们也在R中实现了一个。我不知道如何使用更常见的方法避免混合类型数据出现这种情况。然而，尽管这个问题会导致偏差，根据我的经验，预测性能并没有太大的不同，所以你的里程数可能会有所不同。这取决于你在做什么。不管怎样，我都会做一些模拟。同一小组有两篇关于条件置换重要性的bmc生物信息学论文讨论这些问题