Python Scikit学习随机森林回归：混合两组真值（y）_Python_Scikit Learn_Random Forest

Python Scikit学习随机森林回归：混合两组真值（y）

python scikit-learn

Python Scikit学习随机森林回归：混合两组真值（y）,python,scikit-learn,random-forest,Python,Scikit Learn,Random Forest,我用两组“真”y值（经验值）训练随机森林。我很容易就知道哪一个更好但是，我想知道是否有一种简单的方法，而不是暴力，从每个集合中提取值，从而生成最佳模型。换句话说，我想自动混合这两个y集来生成一个新的理想集比如说，生物活性。不同的实验和不同的数据库提供不同的值。这是一个简单的示例，显示了第3列和第4列上的两组不同的y值 4a50，DQ7,47.6,45.4 3atu，ADP，47.7,30.7 5i9i，5HV，47.7,41.9 5jzn，GUI，47.7,34.2 4bjx，73B，48.

我用两组“真”y值（经验值）训练随机森林。我很容易就知道哪一个更好

但是，我想知道是否有一种简单的方法，而不是暴力，从每个集合中提取值，从而生成最佳模型。换句话说，我想自动混合这两个y集来生成一个新的理想集

比如说，生物活性。不同的实验和不同的数据库提供不同的值。这是一个简单的示例，显示了第3列和第4列上的两组不同的y值

4a50，DQ7,47.6,45.4

3atu，ADP，47.7,30.7

5i9i，5HV，47.7,41.9

5jzn，GUI，47.7,34.2

4bjx，73B，48.0,44.0

4a6c，QG9,48.1,45.5

我知道第3列更好，因为我已经针对每个列训练了不同的模型，还因为我检查了几篇文章来验证哪个值是正确的，第3列比第4列更正确。然而，我有数千行，无法阅读数千篇论文

因此，我想知道是否有一种算法，例如，将使用3作为真实y值的基础，但当模型通过这样做得到改进时，将从4中选取值

这将是有用的，它将报告最后的y列，并能够使用超过2个，但我想我可以弄清楚

现在的想法是找出是否已经有了解决方案，这样我就不需要重新发明轮子了

最好的

米罗

注意：功能（x）位于不同的文件中。

问题在于，仅仅一个算法不知道哪个标签更好

您可以做的是：根据您知道正确的数据训练分类器。使用分类器为每个数据点预先输入一个值。将此值与已有的两个标签列表进行比较，然后选择更接近的标签

这个解决方案显然不是完美的，因为结果取决于预测值的分类器的质量，并且您仍然需要足够的标记数据来训练分类器。此外，与两个标签列表相比，分类器本身也有可能预测更好的值

问题在于，仅仅一个算法不知道哪个标签更好

在随机森林分类器模型拟合中，同时选择第3列和第4列作为目标值/预测值/y，并使用您的结果进行预测。因此，您的算法可以跟踪Y值及其与预测值的相关性。您的问题似乎是多输出分类问题，正如您所建议的，存在多个目标/预测变量（多个y值）

Random forest支持使用Random forest进行多输出分类。随机森林拟合（X，y）方法支持y是类似数组的y:array-like，shape=[n_样本，n_输出]

你说的“两组真值”是什么意思？你能举个例子吗？可观测值。你说的“两组真值”是什么意思？你能举个例子吗？可观测值。好的，听起来很合理。谢谢好的，听起来很合理。谢谢