Python Spark中的叠加ML算法_Python_Apache Spark_Pyspark_Apache Spark Mllib_Ensemble Learning

Python Spark中的叠加ML算法

python apache-spark pyspark

Python Spark中的叠加ML算法,python,apache-spark,pyspark,apache-spark-mllib,ensemble-learning,Python,Apache Spark,Pyspark,Apache Spark Mllib,Ensemble Learning,是否有一个spark api来构建spark中的堆叠集成，还是应该从头开始构建它们？我还没有在网上找到关于这个主题的任何资源正如AKSW的评论所说，在当前的Apache Spark MLlib中，只有两种特定的集成模型实现，分别用于打包和增强对于堆叠部分，我认为您在MLlib上找不到任何东西，您必须通过以下任一方式自行完成：创建一个函数来生成一个管道，通过使用向量汇编程序和最终堆叠算法添加基本学习者来进行堆叠创建一个元估计器，将您的基础学习者和堆栈算法作为参数第二种方法很方便，因为它可以

是否有一个spark api来构建spark中的堆叠集成，还是应该从头开始构建它们？我还没有在网上找到关于这个主题的任何资源

正如AKSW的评论所说，在当前的Apache Spark MLlib中，只有两种特定的集成模型实现，分别用于打包和增强

对于堆叠部分，我认为您在MLlib上找不到任何东西，您必须通过以下任一方式自行完成：

创建一个函数来生成一个管道，通过使用向量汇编程序和最终堆叠算法添加基本学习者来进行堆叠

创建一个元估计器，将您的基础学习者和堆栈算法作为参数

第二种方法很方便，因为它可以与所有的MLlib工具一起工作

对于第二个解决方案，我制作了一个包含提升、打包和堆叠元估计量的库：

你可以从中得到一些想法

基于树的ML模型有两种实现：除此之外，我想你必须自己实现它我想我可以通过管道来实现，对吗？尽管数据转换会非常痛苦，因为我需要复制数据集并添加新的空列来承载较低级别学习者的输出。