关于pyspark mllib算法中存在的拟合操作的澄清

关于pyspark mllib算法中存在的拟合操作的澄清,pyspark,apache-spark-sql,pyspark-dataframes,Pyspark,Apache Spark Sql,Pyspark Dataframes,我对Pyspark中的ML操作有点怀疑 Pyspark中的fit操作是分布式操作/处理,或者整个fit操作在单个节点上执行 详细信息:我试图在一个巨大的数据集上安装KMeans算法,但这需要很长时间。因此,我想在同样的问题上澄清一点 PS:我是Pyspark的新手,因此如果您觉得这个问题很愚蠢,请原谅它是分发的。您的环境是什么?我正在使用一个包含Pyspark 3.0、Java 1.8和Python 3.5的EC2 linux实例。我可以看到所有执行者都同时被锁定。在我的经验中可以看到,我使用的

我对Pyspark中的ML操作有点怀疑

Pyspark中的fit操作是分布式操作/处理,或者整个fit操作在单个节点上执行

详细信息:我试图在一个巨大的数据集上安装KMeans算法,但这需要很长时间。因此,我想在同样的问题上澄清一点


PS:我是Pyspark的新手,因此如果您觉得这个问题很愚蠢,请原谅

它是分发的。您的环境是什么?我正在使用一个包含Pyspark 3.0、Java 1.8和Python 3.5的EC2 linux实例。我可以看到所有执行者都同时被锁定。在我的经验中可以看到,我使用的代码的所有执行器细节都有一个并发锁,我使用AWS EMR运行pyspark作业。我假设EC2是一个单实例。是的,它是一个单实例,有16个内核和64 GB ram。分布式计算意味着您需要多个实例。目前,您正在运行Pyspark的独立实例