Apache spark 火花逻辑回归套索运行非常缓慢

Apache spark 火花逻辑回归套索运行非常缓慢,apache-spark,pyspark,logistic-regression,lasso-regression,Apache Spark,Pyspark,Logistic Regression,Lasso Regression,我正在用套索进行Spark逻辑回归,需要20-30分钟。是因为解算器吗 在没有套索的情况下运行,需要2-4分钟。一般逻辑回归也需要2-4分钟 数据大约有几百万行和20-30列 可能这是一个坏的优化器使用?我想R/Scikit中的相同问题更快 RegParam=.0115 从pyspark.ml.classification导入逻辑回归 lr=逻辑回归(maxIter=1000,fitIntercept=True) lr.设置标准化(真实) lr.setRegParam(RegParam) lr.

我正在用套索进行Spark逻辑回归,需要20-30分钟。是因为解算器吗

在没有套索的情况下运行,需要2-4分钟。一般逻辑回归也需要2-4分钟

数据大约有几百万行和20-30列

可能这是一个坏的优化器使用?我想R/Scikit中的相同问题更快

RegParam=.0115
从pyspark.ml.classification导入逻辑回归
lr=逻辑回归(maxIter=1000,fitIntercept=True)
lr.设置标准化(真实)
lr.setRegParam(RegParam)
lr.setTol(公差)
lr.setElasticNetParam(1.0)
lrModel=lr.配合(df)