Machine learning 基于一小组标记数据的随机森林分类器_Machine Learning_Random Forest

Machine learning 基于一小组标记数据的随机森林分类器

machine-learning

Machine learning 基于一小组标记数据的随机森林分类器,machine-learning,random-forest,Machine Learning,Random Forest,我有大约50行带有标签的数据。数据中还有一个真实来源。真相来源描述了最终用户体验我还有50000行数据，但数据中没有真值源我计划做以下工作：- 使用50行数据构建随机森林分类器一开始不确定数据集是否很小我已经读过关于半监督学习的书，以下是我的理解，并将其应用于我的情况使用我从这50行中得到的分类器，将其应用于50000行数据。然后从错误率最低或最准确的未标记数据中选择最前面的k行将这K行添加到带标签的数据中，然后对这组数据再次运行分类器，并重复上述过程有人试过这种技术吗基本上，

我有大约50行带有标签的数据。数据中还有一个真实来源。真相来源描述了最终用户体验

我还有50000行数据，但数据中没有真值源

我计划做以下工作：- 使用50行数据构建随机森林分类器

一开始不确定数据集是否很小

我已经读过关于半监督学习的书，以下是我的理解，并将其应用于我的情况

使用我从这50行中得到的分类器，将其应用于50000行数据。然后从错误率最低或最准确的未标记数据中选择最前面的k行

将这K行添加到带标签的数据中，然后对这组数据再次运行分类器，并重复上述过程

有人试过这种技术吗

基本上，我是在尝试解决分类的问题，即使用一个小数据集，然后应用到一个更大的数据集。

如果目标是为50000个未标记的观察值估算缺失的“真值源”值，我认为您所描述的增量训练过程不会带来任何好处。我认为最好的选择是使用50个标记的观测值训练一个随机森林，并使用它来估算所有未标记数据的真实来源。为了对其性能进行评估，我建议您重复交叉验证

我认为增量过程没有增加任何价值的原因是，您无法判断哪些未标记的观测值具有最低的预测误差。如果您使用某种形式的叶节点纯度来确定每个预测有多好，您就有可能根据过度拟合的结果重新训练分类器，使其变得越来越糟