Machine learning 互动学习

Machine learning 互动学习,machine-learning,nlp,text-mining,Machine Learning,Nlp,Text Mining,我是NLP和文本挖掘的新手,我正在尝试构建一个文档分类器。 一旦模型经过训练,我们就在新文档上测试它(它们、测试数据、没有标签)。预计该模型并非100%准确;因此,对于错误分类的文档,我们希望与用户交互以纠正这些错误预测 我有两个想法: 重新培训模型,其中:traindata=旧的\u traindata+用户更正的数据 在每个用户纠正后,更新模型参数 这听起来对吗?在第二种情况下,我应该使用哪种算法?我们可以如何有效地解决这个问题?您可以这样做,但如果您计划在每天的基础上反复对整个数据重新

我是NLP和文本挖掘的新手,我正在尝试构建一个文档分类器。 一旦模型经过训练,我们就在新文档上测试它(它们、测试数据、没有标签)。预计该模型并非100%准确;因此,对于错误分类的文档,我们希望与用户交互以纠正这些错误预测

我有两个想法:

  • 重新培训模型,其中:traindata=旧的\u traindata+用户更正的数据

  • 在每个用户纠正后,更新模型参数


这听起来对吗?在第二种情况下,我应该使用哪种算法?我们可以如何有效地解决这个问题?

您可以这样做,但如果您计划在每天的基础上反复对整个数据重新培训模型,这将是一项非常艰巨的任务。与其完全重新培训模型,不如尝试迁移学习。保存模型,然后将其加载回,并根据用户更正的数据对其进行训练。模型将能够纠正错误,而不会丢失已经学到的东西。迁移学习的问题是,经过一段时间后,它会被微调到新的数据,你将不得不从头开始重新训练它。但这比每天重新训练模型要好得多

您应该有适当的度量标准,以检查在多次“转移学习”迭代之后,旧数据中的模型精度是否开始下降。如果精度下降,只需重新训练模型的所有数据,直到日期,你会很好去