在pyspark mllib随机林中设置最大内存参数
我使用在pyspark mllib随机林中设置最大内存参数,pyspark,apache-spark-mllib,random-forest,Pyspark,Apache Spark Mllib,Random Forest,我使用RandomForestMLlib-PySpark 2.3。如何设置MaxMemoryInMb?据我所知,PySpark 2.3中没有实现此方法 我这样问是因为我在实验中得到了以下警告: WARN RandomForest: Tree learning is using approximately 724037600 bytes per iteration, which exceeds requested limit maxMemoryUsage=268435456. This allo
RandomForest
MLlib-PySpark 2.3。如何设置MaxMemoryInMb
?据我所知,PySpark 2.3中没有实现此方法
我这样问是因为我在实验中得到了以下警告:
WARN RandomForest: Tree learning is using approximately 724037600
bytes per iteration, which exceeds requested limit
maxMemoryUsage=268435456. This allows splitting 1 nodes in this iteration.
使用
pypark.ml
where
setMaxMemoryInMB(值)
设置maxMemoryInMB的值
及
类pyspark.ml.classification.决策树分类程序(self,…,maxmoryinmb=256,…)
自Spark 1.4中首次发布以来,PySpark中就出现了这些文件,并且setMaxMemoryInMB
属于这些文件
pyspark.mllib
已冻结(不会添加新功能)并在内部使用pyspark.ml.
请同时包含代码,并将输出放在代码框中,而不是粗体。我的数据包括5000000个实例。我的代码的输出没有得到错误,但是这个警告导致了足够的错误。