Apache spark 如何最适合多种Spark ML型号_Apache Spark_Pyspark_Apache Spark Mllib

Apache spark 如何最适合多种Spark ML型号

apache-spark pyspark

Apache spark 如何最适合多种Spark ML型号,apache-spark,pyspark,apache-spark-mllib,Apache Spark,Pyspark,Apache Spark Mllib,（PySpark，Spark 1.6或2.0，具有数十个节点的共享纱线簇）我想运行一个引导分析，每个引导示例都运行在一个数据集上，该数据集太大，无法容纳单个执行器我要开始的天真方法是：创建训练数据集的spark数据帧对于i in（11000）：使用df.sample（）创建一个示例在样本上训练模型（逻辑分类器）虽然每个单独的模型都适合整个集群，但这似乎不是很“平行”的想法我是否应该以不同的方式执行此操作？如果您可以腾出一些磁盘空间，您可以在一次过程中生成所有样本，写入磁盘

（PySpark，Spark 1.6或2.0，具有数十个节点的共享纱线簇）

我想运行一个引导分析，每个引导示例都运行在一个数据集上，该数据集太大，无法容纳单个执行器

我要开始的天真方法是：

创建训练数据集的spark数据帧
对于i in（11000）：
- 使用df.sample（）创建一个示例
- 在样本上训练模型（逻辑分类器）

虽然每个单独的模型都适合整个集群，但这似乎不是很“平行”的想法

我是否应该以不同的方式执行此操作？

如果您可以腾出一些磁盘空间，您可以在一次过程中生成所有样本，写入磁盘，并在每个子集上启动单独的Spark作业。您将能够根据作业队列获得更好的资源利用率，并避免采样后的多次洗牌。当然，如果您依赖托管对象存储，请忽略此注释：）