关于pyspark mllib算法中存在的拟合操作的澄清_Pyspark_Apache Spark Sql_Pyspark Dataframes

关于pyspark mllib算法中存在的拟合操作的澄清

pyspark

关于pyspark mllib算法中存在的拟合操作的澄清,pyspark,apache-spark-sql,pyspark-dataframes,Pyspark,Apache Spark Sql,Pyspark Dataframes,我对Pyspark中的ML操作有点怀疑 Pyspark中的fit操作是分布式操作/处理，或者整个fit操作在单个节点上执行详细信息：我试图在一个巨大的数据集上安装KMeans算法，但这需要很长时间。因此，我想在同样的问题上澄清一点 PS：我是Pyspark的新手，因此如果您觉得这个问题很愚蠢，请原谅它是分发的。您的环境是什么？我正在使用一个包含Pyspark 3.0、Java 1.8和Python 3.5的EC2 linux实例。我可以看到所有执行者都同时被锁定。在我的经验中可以看到，我使用的

我对Pyspark中的ML操作有点怀疑

Pyspark中的fit操作是分布式操作/处理，或者整个fit操作在单个节点上执行

详细信息：我试图在一个巨大的数据集上安装KMeans算法，但这需要很长时间。因此，我想在同样的问题上澄清一点

PS：我是Pyspark的新手，因此如果您觉得这个问题很愚蠢，请原谅

它是分发的。您的环境是什么？我正在使用一个包含Pyspark 3.0、Java 1.8和Python 3.5的EC2 linux实例。我可以看到所有执行者都同时被锁定。在我的经验中可以看到，我使用的代码的所有执行器细节都有一个并发锁，我使用AWS EMR运行pyspark作业。我假设EC2是一个单实例。是的，它是一个单实例，有16个内核和64 GB ram。分布式计算意味着您需要多个实例。目前，您正在运行Pyspark的独立实例