Machine learning 为监督学习刷新培训数据-如何？_Machine Learning_Classification

Machine learning 为监督学习刷新培训数据-如何？

machine-learning

Machine learning 为监督学习刷新培训数据-如何？,machine-learning,classification,Machine Learning,Classification,我们有一个网页分类器。分类器模型是用大约两年前的训练数据建立的。我们注意到该模型的性能不断恶化，我们认为这是由于网页的属性随着时间的推移而变化（主要使用单词和术语，但也包括拓扑、html标记等）你将如何处理这个问题？我们是否只是重新构建整个列车数据并重新学习新模型？有捷径吗？关于如何做到这一点，是否有一些常见的做法或文件？请注意，我们对监督学习方法非常着迷，在这种方法中，系统管理员训练分类器，在测试集上评估其性能，然后在“生产”系统中安装分类器希望这不是太模糊…可能需要考虑很多因素，主要是分

我们有一个网页分类器。分类器模型是用大约两年前的训练数据建立的。我们注意到该模型的性能不断恶化，我们认为这是由于网页的属性随着时间的推移而变化（主要使用单词和术语，但也包括拓扑、html标记等）

你将如何处理这个问题？我们是否只是重新构建整个列车数据并重新学习新模型？有捷径吗？关于如何做到这一点，是否有一些常见的做法或文件？请注意，我们对监督学习方法非常着迷，在这种方法中，系统管理员训练分类器，在测试集上评估其性能，然后在“生产”系统中安装分类器

希望这不是太模糊…

可能需要考虑很多因素，主要是分类器和数据的状态

如果由于更改web协议而不需要任何新的输入，则可以在新数据上重新训练现有分类器

如果分类器未设计为在新数据上重新训练，则可能难以修复旧模型。同样，如果输入或输出发生了变化，那么构建新分类器也可能更容易

我不知道您使用的是什么分类器，也不知道重新培训或处理数据的方法，因此我无法直接回答您面临的问题，或者是否存在解决问题的捷径。这实际上取决于分类器的可访问性以及维护它的成本

如您在上述问题中所述，建议在将新分类器应用于生产环境之前对其进行测试和比较，以确认其符合要求。

如果您使用的是标准的现成分类器，则可能无法更新新数据的参数从头开始重建可能是最快的方法。如果你沿着这条路线，考虑旧数据加上一些新的数据，可能更高的加权新的数据（加权损失函数可以做到这一点）。保持旧数据的周围可能会减少你需要创建的新数据的数量。

如果你想根据新数据不断更新你的模型（即如果这是一个反复出现的问题），考虑切换到支持在线学习的分类器，显然选择是被动学习的家庭学习方法：非常好（基本上是一个在线支持向量机）。.

如果你的模型不再好，我建议你建立一个新的模型。建立模型所用的算法是什么？嗨@ihadanny，你解决了你的问题吗？谢谢。我知道MIRA仍然需要监督学习。样本可能会一个接一个地来，而不是在一个大数据集中，但你仍然需要在将它们输入t之前对它们进行标记从方法论上讲，你认为这比使用你提到的第一种方法好吗？即设置一个时间间隔（比如每半年一次），其中我们用新数据更新大数据集，并重新训练？它消除了对过去信号加权的担忧，但您不太可能找到标准库实现。这两个选项都是合理的，我认为基本上是一组自制二进制分类器-对于每个类别，我们计算TFIDF样式的分数，然后p重新计算样本属于该类别的概率。然后，我们只需选择最高概率。谢谢ihadanny。我认为这归结为模型本身是否需要嵌入其他规则/协议，以及重新训练现有模型是否简单/经济有效。如果这些对您的类来说没有问题如果是这样（希望不是这样！），那么这就不应该是一个太大的问题。