Machine learning 如何在IMBREAND中获取已创建样本的索引

Machine learning 如何在IMBREAND中获取已创建样本的索引,machine-learning,oversampling,imblearn,Machine Learning,Oversampling,Imblearn,我在一个包含约55800个样本的数据集上使用不同的IMBRearn过采样方法。大约200人是1班,其余的是0班。我用各种过采样策略对1班进行过采样 它并没有提高我的模型质量,因此我不想仔细查看生成的样本。但是如何访问它们呢?有没有办法得到创建的索引 在采样前后循环查看样本列表,过滤掉不重复的样本,要求太高,会冻结我的笔记本电脑。据我所知,IMBREAND中没有内置函数返回过采样索引。因此,唯一的解决办法是按照您的建议,通过比较前后获得指数。为了不冻结笔记本电脑,您可以忽略大多数类样本,因为它们不

我在一个包含约55800个样本的数据集上使用不同的IMBRearn过采样方法。大约200人是1班,其余的是0班。我用各种过采样策略对1班进行过采样

它并没有提高我的模型质量,因此我不想仔细查看生成的样本。但是如何访问它们呢?有没有办法得到创建的索引


在采样前后循环查看样本列表,过滤掉不重复的样本,要求太高,会冻结我的笔记本电脑。

据我所知,IMBREAND中没有内置函数返回过采样索引。因此,唯一的解决办法是按照您的建议,通过比较前后获得指数。为了不冻结笔记本电脑,您可以忽略大多数类样本,因为它们不用于创建少数类的过采样样本(至少不用于随机过采样或正常SMOTE)


因此,假设您删除除类0的500个样本之外的所有样本,保留类1的所有200个样本,然后执行smote过采样,然后像您以前尝试过的那样进行比较。有了这么多的样本,它就不会冻结你的笔记本电脑,你可以了解过采样的样本是什么样子。

用更小的阵列做了一些测试。制作了一个200大小的阵列,用ROS和SMOTE对其重新采样,采样策略为0.25。重采样数组中的所有新样本都位于200-224之间的索引上。我猜新版本只是被附加了。似乎在旧版本中是可能的,但现在它已被弃用:。