Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 处理随机森林中的数据偏斜:spark ML_Scala_Apache Spark_Random Forest - Fatal编程技术网

Scala 处理随机森林中的数据偏斜:spark ML

Scala 处理随机森林中的数据偏斜:spark ML,scala,apache-spark,random-forest,Scala,Apache Spark,Random Forest,在spark的RandomForest实现(ml,而不是mllib)中,处理数据偏斜的最佳方法是什么?spark是否有任何内部支持?(除过度采样和次采样外)。任何线索都将受到赞赏。随机林被认为对数据偏斜不敏感。当然也有极端情况。你为什么说你有问题?是的。。我正在用95:5(A:B)的比率对类进行二元分类。训练后,模型无法将预期样本分类为B类(召回率非常低,约为0.5%)。此外,当我尝试对A类样本进行低采样,以便调整比例(60:40)中的偏度时,我看到召回率有了相当大的提升(接近50%),但精度受

在spark的RandomForest实现(ml,而不是mllib)中,处理数据偏斜的最佳方法是什么?spark是否有任何内部支持?(除过度采样和次采样外)。任何线索都将受到赞赏。

随机林被认为对数据偏斜不敏感。当然也有极端情况。你为什么说你有问题?是的。。我正在用95:5(A:B)的比率对类进行二元分类。训练后,模型无法将预期样本分类为B类(召回率非常低,约为0.5%)。此外,当我尝试对A类样本进行低采样,以便调整比例(60:40)中的偏度时,我看到召回率有了相当大的提升(接近50%),但精度受到了影响(从最初的60%下降到10%)随机林被认为对数据偏斜不敏感。当然也有极端情况。你为什么说你有问题?是的。。我正在用95:5(A:B)的比率对类进行二元分类。训练后,模型无法将预期样本分类为B类(召回率非常低,约为0.5%)。此外,当我尝试对A类样本进行低采样,以便调整比例(60:40)中的偏度时,我看到召回率有了相当大的提升(接近50%),但精度受到了影响(从最初的60%下降到10%)