Python Scikit学习随机森林回归:混合两组真值(y)

Python Scikit学习随机森林回归:混合两组真值(y),python,scikit-learn,random-forest,Python,Scikit Learn,Random Forest,我用两组“真”y值(经验值)训练随机森林。我很容易就知道哪一个更好 但是,我想知道是否有一种简单的方法,而不是暴力,从每个集合中提取值,从而生成最佳模型。换句话说,我想自动混合这两个y集来生成一个新的理想集 比如说,生物活性。不同的实验和不同的数据库提供不同的值。这是一个简单的示例,显示了第3列和第4列上的两组不同的y值 4a50,DQ7,47.6,45.4 3atu,ADP,47.7,30.7 5i9i,5HV,47.7,41.9 5jzn,GUI,47.7,34.2 4bjx,73B,48.

我用两组“真”y值(经验值)训练随机森林。我很容易就知道哪一个更好

但是,我想知道是否有一种简单的方法,而不是暴力,从每个集合中提取值,从而生成最佳模型。换句话说,我想自动混合这两个y集来生成一个新的理想集

比如说,生物活性。不同的实验和不同的数据库提供不同的值。这是一个简单的示例,显示了第3列和第4列上的两组不同的y值

4a50,DQ7,47.6,45.4

3atu,ADP,47.7,30.7

5i9i,5HV,47.7,41.9

5jzn,GUI,47.7,34.2

4bjx,73B,48.0,44.0

4a6c,QG9,48.1,45.5

我知道第3列更好,因为我已经针对每个列训练了不同的模型,还因为我检查了几篇文章来验证哪个值是正确的,第3列比第4列更正确。然而,我有数千行,无法阅读数千篇论文

因此,我想知道是否有一种算法,例如,将使用3作为真实y值的基础,但当模型通过这样做得到改进时,将从4中选取值

这将是有用的,它将报告最后的y列,并能够使用超过2个,但我想我可以弄清楚

现在的想法是找出是否已经有了解决方案,这样我就不需要重新发明轮子了

最好的

米罗


注意:功能(x)位于不同的文件中。

问题在于,仅仅一个算法不知道哪个标签更好

您可以做的是:根据您知道正确的数据训练分类器。使用分类器为每个数据点预先输入一个值。将此值与已有的两个标签列表进行比较,然后选择更接近的标签


这个解决方案显然不是完美的,因为结果取决于预测值的分类器的质量,并且您仍然需要足够的标记数据来训练分类器。此外,与两个标签列表相比,分类器本身也有可能预测更好的值

问题在于,仅仅一个算法不知道哪个标签更好

您可以做的是:根据您知道正确的数据训练分类器。使用分类器为每个数据点预先输入一个值。将此值与已有的两个标签列表进行比较,然后选择更接近的标签


这个解决方案显然不是完美的,因为结果取决于预测值的分类器的质量,并且您仍然需要足够的标记数据来训练分类器。此外,与两个标签列表相比,分类器本身也有可能预测更好的值

在随机森林分类器模型拟合中,同时选择第3列和第4列作为目标值/预测值/y,并使用您的结果进行预测。因此,您的算法可以跟踪Y值及其与预测值的相关性。您的问题似乎是多输出分类问题,正如您所建议的,存在多个目标/预测变量(多个y值)

Random forest支持使用Random forest进行多输出分类。随机森林拟合(X,y)方法支持y是类似数组的y:array-like,shape=[n_样本,n_输出]


在随机森林分类器模型拟合中,同时选择第3列和第4列作为目标值/预测值/y,并使用您的结果进行预测。因此,您的算法可以跟踪Y值及其与预测值的相关性。您的问题似乎是多输出分类问题,正如您所建议的,存在多个目标/预测变量(多个y值)

Random forest支持使用Random forest进行多输出分类。随机森林拟合(X,y)方法支持y是类似数组的y:array-like,shape=[n_样本,n_输出]


你说的“两组真值”是什么意思?你能举个例子吗?可观测值。你说的“两组真值”是什么意思?你能举个例子吗?可观测值。好的,听起来很合理。谢谢好的,听起来很合理。谢谢