Scikit learn PySpark与scikit学习

Scikit learn PySpark与scikit学习,scikit-learn,pyspark,Scikit Learn,Pyspark,我已经了解到,我们可以将scikit学习库与pyspark一起用于在单个辅助进程上处理分区 但是,如果我们想处理分布式的训练数据集,并且说回归算法应该涉及整个数据集,该怎么办呢。由于scikit learn未与RDD集成,我假设它不允许在整个数据集上运行算法,而只允许在特定分区上运行。如果我错了,请纠正我 文档中描述的解决此问题的效果如何满足您的要求 并行培训和评估多个scikit学习模型。它是默认包含的多核实现的分布式模拟 在scikit中学习 将Spark的数据帧无缝转换为numpy Nd

我已经了解到,我们可以将scikit学习库与pyspark一起用于在单个辅助进程上处理分区

但是,如果我们想处理分布式的训练数据集,并且说回归算法应该涉及整个数据集,该怎么办呢。由于scikit learn未与RDD集成,我假设它不允许在整个数据集上运行算法,而只允许在特定分区上运行。如果我错了,请纠正我


文档中描述的解决此问题的效果如何满足您的要求

  • 并行培训和评估多个scikit学习模型。它是默认包含的多核实现的分布式模拟 在scikit中学习
  • 将Spark的数据帧无缝转换为numpy Ndarray或稀疏矩阵
因此,要具体回答您的问题:

但如果我们想处理分布式的训练数据集呢 并且说回归算法应该涉及整个数据集。 由于scikit learn没有与RDD集成,我假设它不允许在该特定分区上的整个数据集上运行该算法

在spark sklearn中,spark用作库的多线程框架的替代品。因此,spark为您无缝地处理从单机执行到多机执行的过程。换句话说,如本条所述:

单机机箱和集群机箱之间的代码无需更改