Apache spark 如何最适合多种Spark ML型号
(PySpark,Spark 1.6或2.0,具有数十个节点的共享纱线簇) 我想运行一个引导分析,每个引导示例都运行在一个数据集上,该数据集太大,无法容纳单个执行器 我要开始的天真方法是:Apache spark 如何最适合多种Spark ML型号,apache-spark,pyspark,apache-spark-mllib,Apache Spark,Pyspark,Apache Spark Mllib,(PySpark,Spark 1.6或2.0,具有数十个节点的共享纱线簇) 我想运行一个引导分析,每个引导示例都运行在一个数据集上,该数据集太大,无法容纳单个执行器 我要开始的天真方法是: 创建训练数据集的spark数据帧 对于i in(11000): 使用df.sample()创建一个示例 在样本上训练模型(逻辑分类器) 虽然每个单独的模型都适合整个集群,但这似乎不是很“平行”的想法 我是否应该以不同的方式执行此操作?如果您可以腾出一些磁盘空间,您可以在一次过程中生成所有样本,写入磁盘
- 创建训练数据集的spark数据帧
- 对于i in(11000):
- 使用df.sample()创建一个示例
- 在样本上训练模型(逻辑分类器)
我是否应该以不同的方式执行此操作?如果您可以腾出一些磁盘空间,您可以在一次过程中生成所有样本,写入磁盘,并在每个子集上启动单独的Spark作业。您将能够根据作业队列获得更好的资源利用率,并避免采样后的多次洗牌。当然,如果您依赖托管对象存储,请忽略此注释:)