Python Scikit二进制分类训练数据选择

Python Scikit二进制分类训练数据选择,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我正在训练一个二进制分类器,该分类器的数据有100个属性,其中正面场景仅占800k项的3%。在培训过程中,我们是否需要包括积极因素和消极因素?我猜我们不应该这样做,因为结果只会是二元的,也就是说,如果模型训练为正数,那么弱匹配就意味着它是负数 如果在这种情况下,我确实需要包括这两个,那么熊猫数据帧的示例方法可靠吗 谢谢大家! 如果要训练二进制分类器,则需要在训练数据集中有两个输出 至少如果你想让分类器工作的话 您拥有的是一个不平衡的数据集,以下是解决此问题的一些方法: 如果你问如何处理不平衡的数

我正在训练一个二进制分类器,该分类器的数据有100个属性,其中正面场景仅占800k项的3%。在培训过程中,我们是否需要包括积极因素和消极因素?我猜我们不应该这样做,因为结果只会是二元的,也就是说,如果模型训练为正数,那么弱匹配就意味着它是负数

如果在这种情况下,我确实需要包括这两个,那么熊猫数据帧的示例方法可靠吗


谢谢大家!

如果要训练二进制分类器,则需要在训练数据集中有两个输出

至少如果你想让分类器工作的话

您拥有的是一个不平衡的数据集,以下是解决此问题的一些方法:


如果你问如何处理不平衡的数据集,网上有很多关于这个主题的博客文章,例如。使用pandas采样方法的一种可能方法是将参数设置为另一类的频率,即正实例为0.97,负实例为0.03,从而通过过采样校正不平衡


但是,如果你说理论上可以将模型与正实例的分布相匹配,并在测试期间将所有异常值标记为负实例,那么这是可能的,尽管不可取。这种方法肯定会比从两个班级学习的方法表现更差。此外,像scikit learn这样的二元分类算法总是从两个类中都假设实例。

“如果你在训练一个二元分类器,你需要在训练数据集中有两个输出。”这不是真的,我认为这也不是问题所指的。通常只输出正类的概率。