Python Scikit学习-培训时忽略元数据功能

Python Scikit学习-培训时忽略元数据功能,python,machine-learning,scikit-learn,metadata,scikits,Python,Machine Learning,Scikit Learn,Metadata,Scikits,我想将失败的示例映射回标识元数据,如名称、id、等,以便更仔细地查看它们。我能想到的最简单的方法是在调用fit函数时,将id字段保留在功能集中。但是,我不希望模型在这些元数据字段上进行训练。在忽略某些特性的情况下,是否仍有适合模型的方法?或者是否有更好的方法将失败示例映射回其标识元数据?首先,您应该查看测试中的“失败示例”,而不是培训数据集中的“失败示例”。我将假设这是您想要做的-但它对训练数据也同样有效。问题变成了,如何设置数据集,以便可以追溯到模型性能不佳的各个数据点 我还将假设您的数据位于

我想将失败的示例映射回标识元数据,如
名称、id、
等,以便更仔细地查看它们。我能想到的最简单的方法是在调用fit函数时,将
id
字段保留在功能集中。但是,我不希望模型在这些元数据字段上进行训练。在忽略某些特性的情况下,是否仍有适合模型的方法?或者是否有更好的方法将失败示例映射回其标识元数据?

首先,您应该查看测试中的“失败示例”,而不是培训数据集中的“失败示例”。我将假设这是您想要做的-但它对训练数据也同样有效。问题变成了,如何设置数据集,以便可以追溯到模型性能不佳的各个数据点

我还将假设您的数据位于数据帧中。假设您有
[feature1,feature2,id]
列。然后,无论您如何洗牌和拆分成训练/测试/验证数据,您都要在完整的数据框架上进行—特性和元数据一起移动


最后,将
df[[feature1,feature2]]
传递给您的模型。现在,要素数据和完整数据的索引方式完全相同。在识别出它不能正常工作的数据点之后,您可以通过查看同一索引处的原始数据帧来获取它的id和其他元数据。

严格来说,这不是真的。如果您不能过度拟合培训数据,那么您的模型实现就会出现问题。这是一个非常有用和常见的测试。但是他们在哪里说他们只是在看训练集呢?我暗示他们是来自他们想要使用的
fit
方法。我们希望你提供一个显示代码没有完全按照你想要的做的。(请参阅)我认为没有必要在这种情况下提供一个例子。本质上,这是一个关于scikit的api和机器学习策略的理论问题。也许这是一个错误的董事会上张贴虽然