Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
spark/scala中使用不同预处理交叉验证多个模型_Scala_Apache Spark_Apache Spark Mllib - Fatal编程技术网

spark/scala中使用不同预处理交叉验证多个模型

spark/scala中使用不同预处理交叉验证多个模型,scala,apache-spark,apache-spark-mllib,Scala,Apache Spark,Apache Spark Mllib,我正在使用Scala的Spark。我想对我的数据做不同的预处理。CrossValidator是否有办法获取多个模型(也使用ParamMaps)以从这两个模型中获得最佳模型? e、 g.我想做的是: val discretizer = new QuantileDiscretizer() .setInputCol("column1") .setOutputCol("column1disc") .setNumbuckets(5) val normalizer = new Normalize

我正在使用Scala的Spark。我想对我的数据做不同的预处理。CrossValidator是否有办法获取多个模型(也使用ParamMaps)以从这两个模型中获得最佳模型? e、 g.我想做的是:

val discretizer = new QuantileDiscretizer()
  .setInputCol("column1")
  .setOutputCol("column1disc")
  .setNumbuckets(5)
val normalizer = new Normalizer()
  .setInputCol("column1")
  .setOutputCol("column1norm")

val lr1 = new LinearRegression()
  .setFeaturescol(discretizer.getOutputCol)
  .setMaxIter(10)
val lr2 = new LinearRegression()
  .setFeaturescol(normalizer.getOutputCol)
  .setMaxIter(10)

val pipeline = new Pipeline().setStages(Array(dicretizer,normalizer,lr1,lr2))

现在,我希望我的交叉验证程序从lr1和lr2中选择两个模型中最好的一个。这只是一个小例子,我想用ParamMaps将其扩展到多种可能性。

您应该能够使用中的自定义估计器对这些模型进行相互评估