Apache spark 如何最大限度地利用我的笔记本电脑内存来运行pyspark?

Apache spark 如何最大限度地利用我的笔记本电脑内存来运行pyspark?,apache-spark,pyspark,apache-spark-mllib,Apache Spark,Pyspark,Apache Spark Mllib,我从800M txt文件创建了一个数据帧,df有2130万行。我在mac电脑上安装了pyspark 2.0.0,内存为16GB。我没有修改任何设置。 我使用70%的df来训练mllib模型和java堆内存。 虽然我使用60%的df进行训练,但这是可以的,并返回给我一个模型 我如何最大限度地利用我的笔记本电脑进行设置,让我使用80%或更多的数据进行培训? 谢谢。您可以为驱动程序设置spark.driver.memory,为spark执行器设置spark.executor.memory。哪一个是正确

我从800M txt文件创建了一个数据帧,df有2130万行。我在mac电脑上安装了pyspark 2.0.0,内存为16GB。我没有修改任何设置。 我使用70%的df来训练mllib模型和java堆内存。 虽然我使用60%的df进行训练,但这是可以的,并返回给我一个模型

我如何最大限度地利用我的笔记本电脑进行设置,让我使用80%或更多的数据进行培训? 谢谢。

您可以为驱动程序设置spark.driver.memory,为spark执行器设置spark.executor.memory。哪一个是正确的取决于您的应用程序,但在您的情况下,我猜是spark.executor.memory

您可以将其设置为spark submit和/或pyspark的命令行选项

有关更多信息,请参阅