Scala 处理随机森林中的数据偏斜：spark ML_Scala_Apache Spark_Random Forest

Scala 处理随机森林中的数据偏斜：spark ML

scala apache-spark

Scala 处理随机森林中的数据偏斜：spark ML,scala,apache-spark,random-forest,Scala,Apache Spark,Random Forest,在spark的RandomForest实现（ml，而不是mllib）中，处理数据偏斜的最佳方法是什么？spark是否有任何内部支持？（除过度采样和次采样外）。任何线索都将受到赞赏。随机林被认为对数据偏斜不敏感。当然也有极端情况。你为什么说你有问题？是的。。我正在用95:5（A:B）的比率对类进行二元分类。训练后，模型无法将预期样本分类为B类（召回率非常低，约为0.5%）。此外，当我尝试对A类样本进行低采样，以便调整比例（60:40）中的偏度时，我看到召回率有了相当大的提升（接近50%），但精度受

在spark的RandomForest实现（ml，而不是mllib）中，处理数据偏斜的最佳方法是什么？spark是否有任何内部支持？（除过度采样和次采样外）。任何线索都将受到赞赏。

随机林被认为对数据偏斜不敏感。当然也有极端情况。你为什么说你有问题？是的。。我正在用95:5（A:B）的比率对类进行二元分类。训练后，模型无法将预期样本分类为B类（召回率非常低，约为0.5%）。此外，当我尝试对A类样本进行低采样，以便调整比例（60:40）中的偏度时，我看到召回率有了相当大的提升（接近50%），但精度受到了影响（从最初的60%下降到10%）随机林被认为对数据偏斜不敏感。当然也有极端情况。你为什么说你有问题？是的。。我正在用95:5（A:B）的比率对类进行二元分类。训练后，模型无法将预期样本分类为B类（召回率非常低，约为0.5%）。此外，当我尝试对A类样本进行低采样，以便调整比例（60:40）中的偏度时，我看到召回率有了相当大的提升（接近50%），但精度受到了影响（从最初的60%下降到10%）