Python Scikit学习-培训时忽略元数据功能_Python_Machine Learning_Scikit Learn_Metadata_Scikits

Python Scikit学习-培训时忽略元数据功能

python machine-learning scikit-learn

Python Scikit学习-培训时忽略元数据功能,python,machine-learning,scikit-learn,metadata,scikits,Python,Machine Learning,Scikit Learn,Metadata,Scikits,我想将失败的示例映射回标识元数据，如名称、id、等，以便更仔细地查看它们。我能想到的最简单的方法是在调用fit函数时，将id字段保留在功能集中。但是，我不希望模型在这些元数据字段上进行训练。在忽略某些特性的情况下，是否仍有适合模型的方法？或者是否有更好的方法将失败示例映射回其标识元数据？首先，您应该查看测试中的“失败示例”，而不是培训数据集中的“失败示例”。我将假设这是您想要做的-但它对训练数据也同样有效。问题变成了，如何设置数据集，以便可以追溯到模型性能不佳的各个数据点我还将假设您的数据位于

我想将失败的示例映射回标识元数据，如

名称、id、

等，以便更仔细地查看它们。我能想到的最简单的方法是在调用fit函数时，将

id

字段保留在功能集中。但是，我不希望模型在这些元数据字段上进行训练。在忽略某些特性的情况下，是否仍有适合模型的方法？或者是否有更好的方法将失败示例映射回其标识元数据？

首先，您应该查看测试中的“失败示例”，而不是培训数据集中的“失败示例”。我将假设这是您想要做的-但它对训练数据也同样有效。问题变成了，如何设置数据集，以便可以追溯到模型性能不佳的各个数据点

我还将假设您的数据位于数据帧中。假设您有

[feature1，feature2，id]

列。然后，无论您如何洗牌和拆分成训练/测试/验证数据，您都要在完整的数据框架上进行—特性和元数据一起移动

最后，将

df[[feature1，feature2]]

传递给您的模型。现在，要素数据和完整数据的索引方式完全相同。在识别出它不能正常工作的数据点之后，您可以通过查看同一索引处的原始数据帧来获取它的id和其他元数据。

严格来说，这不是真的。如果您不能过度拟合培训数据，那么您的模型实现就会出现问题。这是一个非常有用和常见的测试。但是他们在哪里说他们只是在看训练集呢？我暗示他们是来自他们想要使用的

fit

方法。我们希望你提供一个显示代码没有完全按照你想要的做的。（请参阅）我认为没有必要在这种情况下提供一个例子。本质上，这是一个关于scikit的api和机器学习策略的理论问题。也许这是一个错误的董事会上张贴虽然