spark/scala中使用不同预处理交叉验证多个模型
我正在使用Scala的Spark。我想对我的数据做不同的预处理。CrossValidator是否有办法获取多个模型(也使用ParamMaps)以从这两个模型中获得最佳模型? e、 g.我想做的是:spark/scala中使用不同预处理交叉验证多个模型,scala,apache-spark,apache-spark-mllib,Scala,Apache Spark,Apache Spark Mllib,我正在使用Scala的Spark。我想对我的数据做不同的预处理。CrossValidator是否有办法获取多个模型(也使用ParamMaps)以从这两个模型中获得最佳模型? e、 g.我想做的是: val discretizer = new QuantileDiscretizer() .setInputCol("column1") .setOutputCol("column1disc") .setNumbuckets(5) val normalizer = new Normalize
val discretizer = new QuantileDiscretizer()
.setInputCol("column1")
.setOutputCol("column1disc")
.setNumbuckets(5)
val normalizer = new Normalizer()
.setInputCol("column1")
.setOutputCol("column1norm")
val lr1 = new LinearRegression()
.setFeaturescol(discretizer.getOutputCol)
.setMaxIter(10)
val lr2 = new LinearRegression()
.setFeaturescol(normalizer.getOutputCol)
.setMaxIter(10)
val pipeline = new Pipeline().setStages(Array(dicretizer,normalizer,lr1,lr2))
现在,我希望我的交叉验证程序从lr1和lr2中选择两个模型中最好的一个。这只是一个小例子,我想用ParamMaps将其扩展到多种可能性。您应该能够使用中的自定义估计器对这些模型进行相互评估