Machine learning 随机林的混合谓词类型

Machine learning 随机林的混合谓词类型,machine-learning,classification,random-forest,feature-selection,Machine Learning,Classification,Random Forest,Feature Selection,我正在尝试为一个包含5个谓词变量的数据集建立一个使用随机林的分类模型。两个谓词变量为连续类型,一个可以是间隔[0,1000]的实数,另一个可以是[-10,10]的实数;一个谓词变量的整数值为[10000,15000]。此外,剩下的两个谓词变量是分类值,即{A,B,C,D,ef}和{NY,LA,Chicago}。对这些不同的谓词类型进行预处理是否需要任何程序?许多穷举搜索算法将偏向于具有许多值的变量。如本文所述,分离变量选择和拆分选择过程似乎有助于实现这一点。它们也在R中实现了一个。我不知道如何使

我正在尝试为一个包含5个谓词变量的数据集建立一个使用随机林的分类模型。两个谓词变量为连续类型,一个可以是间隔
[0,1000]
的实数,另一个可以是
[-10,10]
的实数;一个谓词变量的整数值为
[10000,15000]
。此外,剩下的两个谓词变量是分类值,即
{A,B,C,D,ef}
{NY,LA,Chicago}
。对这些不同的谓词类型进行预处理是否需要任何程序?

许多穷举搜索算法将偏向于具有许多值的变量。如本文所述,分离变量选择和拆分选择过程似乎有助于实现这一点。它们也在R中实现了一个。我不知道如何使用更常见的方法避免混合类型数据出现这种情况。然而,尽管这个问题会导致偏差,根据我的经验,预测性能并没有太大的不同,所以你的里程数可能会有所不同。这取决于你在做什么。不管怎样,我都会做一些模拟。同一小组有两篇关于条件置换重要性的bmc生物信息学论文讨论这些问题