Machine learning 为监督学习刷新培训数据-如何?

Machine learning 为监督学习刷新培训数据-如何?,machine-learning,classification,Machine Learning,Classification,我们有一个网页分类器。分类器模型是用大约两年前的训练数据建立的。我们注意到该模型的性能不断恶化,我们认为这是由于网页的属性随着时间的推移而变化(主要使用单词和术语,但也包括拓扑、html标记等) 你将如何处理这个问题?我们是否只是重新构建整个列车数据并重新学习新模型?有捷径吗?关于如何做到这一点,是否有一些常见的做法或文件?请注意,我们对监督学习方法非常着迷,在这种方法中,系统管理员训练分类器,在测试集上评估其性能,然后在“生产”系统中安装分类器 希望这不是太模糊…可能需要考虑很多因素,主要是分

我们有一个网页分类器。分类器模型是用大约两年前的训练数据建立的。我们注意到该模型的性能不断恶化,我们认为这是由于网页的属性随着时间的推移而变化(主要使用单词和术语,但也包括拓扑、html标记等)

你将如何处理这个问题?我们是否只是重新构建整个列车数据并重新学习新模型?有捷径吗?关于如何做到这一点,是否有一些常见的做法或文件?请注意,我们对监督学习方法非常着迷,在这种方法中,系统管理员训练分类器,在测试集上评估其性能,然后在“生产”系统中安装分类器


希望这不是太模糊…

可能需要考虑很多因素,主要是分类器和数据的状态

如果由于更改web协议而不需要任何新的输入,则可以在新数据上重新训练现有分类器

如果分类器未设计为在新数据上重新训练,则可能难以修复旧模型。同样,如果输入或输出发生了变化,那么构建新分类器也可能更容易

我不知道您使用的是什么分类器,也不知道重新培训或处理数据的方法,因此我无法直接回答您面临的问题,或者是否存在解决问题的捷径。这实际上取决于分类器的可访问性以及维护它的成本


如您在上述问题中所述,建议在将新分类器应用于生产环境之前对其进行测试和比较,以确认其符合要求。

如果您使用的是标准的现成分类器,则可能无法更新新数据的参数从头开始重建可能是最快的方法。如果你沿着这条路线,考虑旧数据加上一些新的数据,可能更高的加权新的数据(加权损失函数可以做到这一点)。保持旧数据的周围可能会减少你需要创建的新数据的数量。


如果你想根据新数据不断更新你的模型(即如果这是一个反复出现的问题),考虑切换到支持在线学习的分类器,显然选择是被动学习的家庭学习方法:非常好(基本上是一个在线支持向量机)。.

如果你的模型不再好,我建议你建立一个新的模型。建立模型所用的算法是什么?嗨@ihadanny,你解决了你的问题吗?谢谢。我知道MIRA仍然需要监督学习。样本可能会一个接一个地来,而不是在一个大数据集中,但你仍然需要在将它们输入t之前对它们进行标记从方法论上讲,你认为这比使用你提到的第一种方法好吗?即设置一个时间间隔(比如每半年一次),其中我们用新数据更新大数据集,并重新训练?它消除了对过去信号加权的担忧,但您不太可能找到标准库实现。这两个选项都是合理的,我认为基本上是一组自制二进制分类器-对于每个类别,我们计算TFIDF样式的分数,然后p重新计算样本属于该类别的概率。然后,我们只需选择最高概率。谢谢ihadanny。我认为这归结为模型本身是否需要嵌入其他规则/协议,以及重新训练现有模型是否简单/经济有效。如果这些对您的类来说没有问题如果是这样(希望不是这样!),那么这就不应该是一个太大的问题。