Scikit learn PySpark与scikit学习
我已经了解到,我们可以将scikit学习库与pyspark一起用于在单个辅助进程上处理分区 但是,如果我们想处理分布式的训练数据集,并且说回归算法应该涉及整个数据集,该怎么办呢。由于scikit learn未与RDD集成,我假设它不允许在整个数据集上运行算法,而只允许在特定分区上运行。如果我错了,请纠正我Scikit learn PySpark与scikit学习,scikit-learn,pyspark,Scikit Learn,Pyspark,我已经了解到,我们可以将scikit学习库与pyspark一起用于在单个辅助进程上处理分区 但是,如果我们想处理分布式的训练数据集,并且说回归算法应该涉及整个数据集,该怎么办呢。由于scikit learn未与RDD集成,我假设它不允许在整个数据集上运行算法,而只允许在特定分区上运行。如果我错了,请纠正我 文档中描述的解决此问题的效果如何满足您的要求 并行培训和评估多个scikit学习模型。它是默认包含的多核实现的分布式模拟 在scikit中学习 将Spark的数据帧无缝转换为numpy Nd
文档中描述的解决此问题的效果如何满足您的要求
- 并行培训和评估多个scikit学习模型。它是默认包含的多核实现的分布式模拟 在scikit中学习
- 将Spark的数据帧无缝转换为numpy Ndarray或稀疏矩阵