Pyspark 对于不平衡的数据集,mllib如何在内部对类进行加权?
我有一个数据框架,有1%的正类(1)和99%的负类(0),我正在Pyspark中进行逻辑回归。我讨论了如何处理不平衡的数据集,解决方案是添加一个权重col,如链接中提供的答案所述,以便告诉模型更多地关注1,因为1较少 我已经试过了,效果很好,但我不知道mllib如何在内部平衡数据。有人有线索吗?我不喜欢和我无法理解的“黑匣子”一起工作。它说 我们实现了两种求解逻辑回归的算法:小批量梯度下降算法和L-BFGS算法。我们建议L-BFGS优于小批量梯度下降,以加快收敛速度 您可以检查以查看优化算法在每次迭代后如何更新权重 它说 我们实现了两种求解逻辑回归的算法:小批量梯度下降算法和L-BFGS算法。我们建议L-BFGS优于小批量梯度下降,以加快收敛速度 您可以检查以查看优化算法在每次迭代后如何更新权重Pyspark 对于不平衡的数据集,mllib如何在内部对类进行加权?,pyspark,apache-spark-mllib,Pyspark,Apache Spark Mllib,我有一个数据框架,有1%的正类(1)和99%的负类(0),我正在Pyspark中进行逻辑回归。我讨论了如何处理不平衡的数据集,解决方案是添加一个权重col,如链接中提供的答案所述,以便告诉模型更多地关注1,因为1较少 我已经试过了,效果很好,但我不知道mllib如何在内部平衡数据。有人有线索吗?我不喜欢和我无法理解的“黑匣子”一起工作。它说 我们实现了两种求解逻辑回归的算法:小批量梯度下降算法和L-BFGS算法。我们建议L-BFGS优于小批量梯度下降,以加快收敛速度 您可以检查以查看优化算法在每