Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/csharp-4.0/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Pyspark 对于不平衡的数据集,mllib如何在内部对类进行加权?_Pyspark_Apache Spark Mllib - Fatal编程技术网

Pyspark 对于不平衡的数据集,mllib如何在内部对类进行加权?

Pyspark 对于不平衡的数据集,mllib如何在内部对类进行加权?,pyspark,apache-spark-mllib,Pyspark,Apache Spark Mllib,我有一个数据框架,有1%的正类(1)和99%的负类(0),我正在Pyspark中进行逻辑回归。我讨论了如何处理不平衡的数据集,解决方案是添加一个权重col,如链接中提供的答案所述,以便告诉模型更多地关注1,因为1较少 我已经试过了,效果很好,但我不知道mllib如何在内部平衡数据。有人有线索吗?我不喜欢和我无法理解的“黑匣子”一起工作。它说 我们实现了两种求解逻辑回归的算法:小批量梯度下降算法和L-BFGS算法。我们建议L-BFGS优于小批量梯度下降,以加快收敛速度 您可以检查以查看优化算法在每

我有一个数据框架,有1%的正类(1)和99%的负类(0),我正在Pyspark中进行逻辑回归。我讨论了如何处理不平衡的数据集,解决方案是添加一个权重col,如链接中提供的答案所述,以便告诉模型更多地关注1,因为1较少

我已经试过了,效果很好,但我不知道mllib如何在内部平衡数据。有人有线索吗?我不喜欢和我无法理解的“黑匣子”一起工作。

它说

我们实现了两种求解逻辑回归的算法:小批量梯度下降算法和L-BFGS算法。我们建议L-BFGS优于小批量梯度下降,以加快收敛速度

您可以检查以查看优化算法在每次迭代后如何更新权重

它说

我们实现了两种求解逻辑回归的算法:小批量梯度下降算法和L-BFGS算法。我们建议L-BFGS优于小批量梯度下降,以加快收敛速度

您可以检查以查看优化算法在每次迭代后如何更新权重