Apache spark Spark或其他技术中的混合效应模型
是否可以在Spark中运行混合效应回归模型?(正如我们可以使用R中的lme4、Julia中的MixedModels或Python中的Statsmodels MixedLM所做的那样)。Apache spark Spark或其他技术中的混合效应模型,apache-spark,regression,mixed-models,Apache Spark,Regression,Mixed Models,是否可以在Spark中运行混合效应回归模型?(正如我们可以使用R中的lme4、Julia中的MixedModels或Python中的Statsmodels MixedLM所做的那样)。 任何例子都很好 我读过有一个GLMix函数,但我不知道用户是否可以直接使用它来拟合模型并获得系数和p值,或者它是否只能由机器学习库内部使用 我想转到Spark,因为我的数据集比内存大得多 是否有其他通用数据库或框架能够执行类似于从磁盘流式传输数据的操作? 我只见过一些人能做简单的线性回归 关于是的,使用Spark
任何例子都很好 我读过有一个GLMix函数,但我不知道用户是否可以直接使用它来拟合模型并获得系数和p值,或者它是否只能由机器学习库内部使用 我想转到Spark,因为我的数据集比内存大得多 是否有其他通用数据库或框架能够执行类似于从磁盘流式传输数据的操作?
我只见过一些人能做简单的线性回归
关于是的,使用Spark绝对可以做到这一点 我要研究的第一件事是一个相当流行的名为ML Lib的库。我不确定它是否完全符合您需要的模型,但肯定比“简单线性回归”更重要 另一个我不熟悉的库确实明确提到了混合效应模型 下面是使用广义相加混合效果驱动程序的示例:
spark-submit \
--class com.linkedin.photon.ml.cli.game.GameTrainingDriver \
--master local[*] \
--num-executors 4 \
--driver-memory 1G \
--executor-memory 1G \
"./build/photon-all_2.10/libs/photon-all_2.10-1.0.0.jar" \
--input-data-directories "./a1a/train/" \
--validation-data-directories "./a1a/test/" \
--root-output-directory "out" \
--feature-shard-configurations "name=globalShard,feature.bags=features" \
--coordinate-configurations "name=global,feature.shard=globalShard,min.partitions=4,optimizer=LBFGS,tolerance=1.0E-6,max.iter=50,regularization=L2,reg.weights=0.1|1|10|100" \
--coordinate-update-sequence "global" \
--coordinate-descent-iterations 1 \
--training-task "LOGISTIC_REGRESSION"
ML Lib不支持混合效应模型,仅支持具有L2惩罚的基本GLM(以及线性和逻辑回归AFAIK的L1和弹性网络)