Machine learning 机器学习中监督模型的建立

Machine learning 机器学习中监督模型的建立,machine-learning,supervised-learning,Machine Learning,Supervised Learning,我最近了解了监督学习的工作原理。它学习标记的数据集并预测未标记的数据 但是,我有一个问题,用预测的数据来教创建的模型,然后再预测未标记的数据,这样做是否合适。然后重复这个过程 例如,模型M由10个带标签的数据集D创建,然后模型M预测数据A。然后,数据A被添加到数据集D中,并再次创建模型M。这个过程会随着大量不可预测的数据而重复。您所描述的称为增量监督学习、可更新分类器。。。有很多算法可以实现这些行为。例如,请参见weka工具箱。 我建议看看下面的 霍夫丁树 IBk 朴素贝叶斯可更新 新加坡元

我最近了解了监督学习的工作原理。它学习标记的数据集并预测未标记的数据

但是,我有一个问题,用预测的数据来教创建的模型,然后再预测未标记的数据,这样做是否合适。然后重复这个过程


例如,模型M由10个带标签的数据集D创建,然后模型M预测数据A。然后,数据A被添加到数据集D中,并再次创建模型M。这个过程会随着大量不可预测的数据而重复。

您所描述的称为增量监督学习、可更新分类器。。。有很多算法可以实现这些行为。例如,请参见weka工具箱。 我建议看看下面的

  • 霍夫丁树
  • IBk
  • 朴素贝叶斯可更新
  • 新加坡元

    • 您在这里描述的是一种众所周知的技术,称为(除其他名称外)“自我培训”或“自我半监督培训”。请参见示例幻灯片。人们担心这个想法会被修改。不幸的是,一般来说,很难证明它应该有帮助,因此,虽然它对某些数据集有帮助,但对其他数据集却很难。这里的主要标准是第一个模型的质量,因为自我培训是基于这样一个假设,即您的原始模型非常好,因此您可以充分信任它来标记新的示例。对于强模型,它可能有助于缓慢的概念漂移,但对于弱模型,它可能会失败。

      对不起,这些主题是不相关的。在线学习适用于以下情况:在每一步中,你必须预测结果,然后才能得到正确的标签。这与问题无关,OP只是建议使用由原始模型获得的标签扩充的训练集重新输入算法。没有进一步的阶段可以揭示真正的标签。@AmiTavory我建议重新阅读什么是在线阅读。这就是他所描述的。只是想确定一下,在我上面的评论中,你到底不同意什么:1。与我的想法相反,OP描述的是一种情况,在这种情况下,迭代地,更多的标记数据进入。2.与我的想法相反,您提到的在线算法会继续更新预测,即使没有更多的标签(只添加了自变量实例)。@Ami是对的,这并没有解决OPs问题,他尝试(自我)半监督学习,而不仅仅是增量学习。@Ami是对的,问题在于半监督学习,而不是在线学习。在线学习算法可能被用来实现半监督学习算法。有趣的答案。