Apache spark Spark群中的超参数调谐_Apache Spark_Pyspark_User Defined Functions_Forecasting

Apache spark Spark群中的超参数调谐

apache-spark pyspark

Apache spark Spark群中的超参数调谐,apache-spark,pyspark,user-defined-functions,forecasting,Apache Spark,Pyspark,User Defined Functions,Forecasting,我们正在评估spark作为一个并行后端，根据特定的层次结构（组）：客户id、站点id和产品id来训练数千个时间序列预测模型到今天为止，我们已经创建了一个名为comb_id的唯一标识符，它对于这3个变量的任何组合都是不同的。数据大致如下所示： comb_id customer_id site_id timestamp value 1 87 55 2020-01-12 12:00 43.5 1

我们正在评估spark作为一个并行后端，根据特定的层次结构（组）：客户id、站点id和产品id来训练数千个时间序列预测模型

到今天为止，我们已经创建了一个名为comb_id的唯一标识符，它对于这3个变量的任何组合都是不同的。数据大致如下所示：

    comb_id  customer_id site_id      timestamp     value
       1         87         55    2020-01-12 12:00   43.5
       1         87         53    2020-01-12 12:00   45.6
       1         87         65    2020-01-12 12:00   48.2
       2         87         55    2020-01-12 12:00   43.5
       2         87         53    2020-01-12 12:00   45.6
       2         87         55    2020-01-12 12:00   43.5

我们所做的是根据组合ID聚合值列，我们执行一些预处理，创建滞后、移动平均值、日历特性，并将其与其他外部特性连接起来。然后我们正在执行一个容器化的工作负载，我们正在为每个算法启动n个comb\u id*算法的数量*hpo\u作业

这个过程非常有效，因为我们可以调整每个单独的算法，并为每个组合id获得最佳算法的最佳模型。但是速度非常慢，因为我们可以启动的容器数量有一个帐户限制，将来可能会成为一个问题

我们发现了这个有用的资源：我们已经设法为我们的用例运行了这个资源，但是我们发现了以下问题：

没有办法为每个小组调整每个prophet模型（或者至少我们不知道如何做到这一点）

我们使用XGBoost和RandomForest而不是prophet

以前有人面临过同样的挑战吗

PS：我们对spark的理解非常有限，所以如果我们问了一些琐碎的问题，请道歉