Apache spark 如何最适合多种Spark ML型号

Apache spark 如何最适合多种Spark ML型号,apache-spark,pyspark,apache-spark-mllib,Apache Spark,Pyspark,Apache Spark Mllib,(PySpark,Spark 1.6或2.0,具有数十个节点的共享纱线簇) 我想运行一个引导分析,每个引导示例都运行在一个数据集上,该数据集太大,无法容纳单个执行器 我要开始的天真方法是: 创建训练数据集的spark数据帧 对于i in(11000): 使用df.sample()创建一个示例 在样本上训练模型(逻辑分类器) 虽然每个单独的模型都适合整个集群,但这似乎不是很“平行”的想法 我是否应该以不同的方式执行此操作?如果您可以腾出一些磁盘空间,您可以在一次过程中生成所有样本,写入磁盘

(PySpark,Spark 1.6或2.0,具有数十个节点的共享纱线簇)

我想运行一个引导分析,每个引导示例都运行在一个数据集上,该数据集太大,无法容纳单个执行器

我要开始的天真方法是:

  • 创建训练数据集的spark数据帧
  • 对于i in(11000):
    • 使用df.sample()创建一个示例
    • 在样本上训练模型(逻辑分类器)
虽然每个单独的模型都适合整个集群,但这似乎不是很“平行”的想法


我是否应该以不同的方式执行此操作?

如果您可以腾出一些磁盘空间,您可以在一次过程中生成所有样本,写入磁盘,并在每个子集上启动单独的Spark作业。您将能够根据作业队列获得更好的资源利用率,并避免采样后的多次洗牌。当然,如果您依赖托管对象存储,请忽略此注释:)