Machine learning 基于一小组标记数据的随机森林分类器

Machine learning 基于一小组标记数据的随机森林分类器,machine-learning,random-forest,Machine Learning,Random Forest,我有大约50行带有标签的数据。数据中还有一个真实来源。真相来源描述了最终用户体验 我还有50000行数据,但数据中没有真值源 我计划做以下工作:- 使用50行数据构建随机森林分类器 一开始不确定数据集是否很小 我已经读过关于半监督学习的书,以下是我的理解,并将其应用于我的情况 使用我从这50行中得到的分类器,将其应用于50000行数据。 然后从错误率最低或最准确的未标记数据中选择最前面的k行 将这K行添加到带标签的数据中,然后对这组数据再次运行分类器,并重复上述过程 有人试过这种技术吗 基本上,

我有大约50行带有标签的数据。数据中还有一个真实来源。真相来源描述了最终用户体验

我还有50000行数据,但数据中没有真值源

我计划做以下工作:- 使用50行数据构建随机森林分类器

一开始不确定数据集是否很小

我已经读过关于半监督学习的书,以下是我的理解,并将其应用于我的情况

使用我从这50行中得到的分类器,将其应用于50000行数据。 然后从错误率最低或最准确的未标记数据中选择最前面的k行

将这K行添加到带标签的数据中,然后对这组数据再次运行分类器,并重复上述过程

有人试过这种技术吗


基本上,我是在尝试解决分类的问题,即使用一个小数据集,然后应用到一个更大的数据集。

如果目标是为50000个未标记的观察值估算缺失的“真值源”值,我认为您所描述的增量训练过程不会带来任何好处。我认为最好的选择是使用50个标记的观测值训练一个随机森林,并使用它来估算所有未标记数据的真实来源。为了对其性能进行评估,我建议您重复交叉验证

我认为增量过程没有增加任何价值的原因是,您无法判断哪些未标记的观测值具有最低的预测误差。如果您使用某种形式的叶节点纯度来确定每个预测有多好,您就有可能根据过度拟合的结果重新训练分类器,使其变得越来越糟