Python Scikit二进制分类训练数据选择_Python_Machine Learning_Scikit Learn

Python Scikit二进制分类训练数据选择

python machine-learning scikit-learn

Python Scikit二进制分类训练数据选择,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我正在训练一个二进制分类器，该分类器的数据有100个属性，其中正面场景仅占800k项的3%。在培训过程中，我们是否需要包括积极因素和消极因素？我猜我们不应该这样做，因为结果只会是二元的，也就是说，如果模型训练为正数，那么弱匹配就意味着它是负数如果在这种情况下，我确实需要包括这两个，那么熊猫数据帧的示例方法可靠吗谢谢大家! 如果要训练二进制分类器，则需要在训练数据集中有两个输出至少如果你想让分类器工作的话您拥有的是一个不平衡的数据集，以下是解决此问题的一些方法：如果你问如何处理不平衡的数

我正在训练一个二进制分类器，该分类器的数据有100个属性，其中正面场景仅占800k项的3%。在培训过程中，我们是否需要包括积极因素和消极因素？我猜我们不应该这样做，因为结果只会是二元的，也就是说，如果模型训练为正数，那么弱匹配就意味着它是负数

如果在这种情况下，我确实需要包括这两个，那么熊猫数据帧的示例方法可靠吗

谢谢大家!

如果要训练二进制分类器，则需要在训练数据集中有两个输出

至少如果你想让分类器工作的话

您拥有的是一个不平衡的数据集，以下是解决此问题的一些方法：

如果你问如何处理不平衡的数据集，网上有很多关于这个主题的博客文章，例如。使用pandas采样方法的一种可能方法是将参数设置为另一类的频率，即正实例为0.97，负实例为0.03，从而通过过采样校正不平衡

但是，如果你说理论上可以将模型与正实例的分布相匹配，并在测试期间将所有异常值标记为负实例，那么这是可能的，尽管不可取。这种方法肯定会比从两个班级学习的方法表现更差。此外，像scikit learn这样的二元分类算法总是从两个类中都假设实例。

“如果你在训练一个二元分类器，你需要在训练数据集中有两个输出。”这不是真的，我认为这也不是问题所指的。通常只输出正类的概率。