Python 如何处理类别可能随时间变化的类别变量建模?

Python 如何处理类别可能随时间变化的类别变量建模?,python,data-science,statsmodels,Python,Data Science,Statsmodels,我面临一个关于分类变量的问题。在我的例子中,我的变量可能有不同数量的级别。例如,假设我的分类变量表示汽车的类型。最初,它只有三种类型(为了论证):gas, 柴油机和混合动力车。我使用了一种编码来表示它们。现在市场上出现了一种新型汽车,即电动汽车。我想知道是否有一种方法可以在不重新培训车型的情况下适应电动汽车 在我的例子中,分类变量有大约50个不同的级别,随着时间的推移,可能会添加新的级别,也可能会删除旧的级别。如果可能的话,我如何在每次数据发生时都不重新训练整个模型的情况下对数据进行建模 非常感

我面临一个关于分类变量的问题。在我的例子中,我的变量可能有不同数量的级别。例如,假设我的分类变量表示汽车的类型。最初,它只有三种类型(为了论证):
gas

柴油机
和混合动力车。我使用了一种编码来表示它们。现在市场上出现了一种新型汽车,即电动汽车。我想知道是否有一种方法可以在不重新培训车型的情况下适应电动汽车

在我的例子中,分类变量有大约50个不同的级别,随着时间的推移,可能会添加新的级别,也可能会删除旧的级别。如果可能的话,我如何在每次数据发生时都不重新训练整个模型的情况下对数据进行建模

非常感谢您的建议


谢谢。

最好的方法就是重新培训您的模型

思考分类变量如何影响模型可能会有所帮助。分类变量通常被视为二进制变量,其中每个类别都是自己的列,如果存在该类别,则该列中的行为1,否则为0。现在想象一下,在您的数据中添加一列您的模型尚未训练过的数据,就像一个新类别的情况一样。。。这将导致次优性能。最有可能的是,这个新列不会对模型预测产生影响

您所建议的有一些示例,但它们需要将次要模型输入到主要模型中。我们经常在自然语言处理中看到这一点,在自然语言处理中有一个文本相似性的模型(一个词向量),然后这个模型被输入到另一个模型中,该模型预测文本类别和情感等内容


因此,基本上,如果您可以对分类变量的相似性进行建模(这是您的二级模型),并将该模型输入到主模型中,那么您只需要在获得新数据时更新二级模型。但是这种方法有它的问题…

你能给我一个关于你在最后一句中提到的问题的指针吗。我对NLP只有粗略的了解,但没有详细的背景。我想更多地了解这些问题。谢谢。在单词向量的情况下,向量是单词语义相似性的一个模型(例如,“猫”与“狗”是否相似)。在您的情况下,您需要对各种车辆类型之间的相似性进行建模。在这两种情况下,问题都是使用估计量作为估计量。这可能会增加模型中的偏差和/或错误。如果你能消除偏见并解释错误,你会很好,但这可能很棘手。