Python 带有Sklearn的MNIST数据集

Python 带有Sklearn的MNIST数据集,python,mnist,sklearn-pandas,Python,Mnist,Sklearn Pandas,我在MNIST数据集上训练线性模型,但我只想训练一个数字,即4。我如何选择我的X_测试、X_训练、y_测试、y_训练 分类器需要学会区分不同类的集合。 如果您只关心数字4,则应将培训和测试集分为: 第4类实例 非4类实例:所有其他数字的并集 否则,列车/测试分离仍然是典型的,您希望没有重叠。如果您只需要识别4s,则这是一个二进制分类问题,因此您只需要创建一个新的目标变量:如果类为4,则Y=1;如果类不是4,则Y=0。 列车X将保持不变 列车Y将是与列车X相关的新目标变量 测试_X将保持不变

我在MNIST数据集上训练线性模型,但我只想训练一个数字,即4。我如何选择我的X_测试、X_训练、y_测试、y_训练

分类器需要学会区分不同类的集合。 如果您只关心数字4,则应将培训和测试集分为:

  • 第4类实例
  • 非4类实例:所有其他数字的并集

否则,列车/测试分离仍然是典型的,您希望没有重叠。

如果您只需要识别4s,则这是一个二进制分类问题,因此您只需要创建一个新的目标变量:如果类为4,则Y=1;如果类不是4,则Y=0。
  • 列车X将保持不变
  • 列车Y将是与列车X相关的新目标变量
  • 测试_X将保持不变
  • Test_Y将是与Test_X相关的新目标变量。

    数据将有点不平衡,但这不应该是一个问题