Machine learning PySpark中的加速失效时间模型用于模拟重复事件_Machine Learning_Pyspark_Apache Spark Ml_Survival Analysis_Survival

Machine learning PySpark中的加速失效时间模型用于模拟重复事件

machine-learning pyspark

Machine learning PySpark中的加速失效时间模型用于模拟重复事件,machine-learning,pyspark,apache-spark-ml,survival-analysis,survival,Machine Learning,Pyspark,Apache Spark Ml,Survival Analysis,Survival,我试图利用PySpark中的加速故障时间模型，从客户的订单历史中预测客户重新订购订单车的概率。我的输入数据包含作为预测因素的客户和相应订单购物车的各种功能两个连续订单之间的天数作为标签和以前观察到的订单为未审查订单，未来订单为审查订单 PySpark是这里的选择，因为环境有一些限制，我没有其他选择来处理大量订单历史记录（~40GB）。以下是我的示例实现： > from pyspark.ml.regression import AFTSurvivalRegression fro

我试图利用PySpark中的加速故障时间模型，从客户的订单历史中预测客户重新订购订单车的概率。我的输入数据包含

作为预测因素的客户和相应订单购物车的各种功能
两个连续订单之间的天数作为标签和
以前观察到的订单为未审查订单，未来订单为审查订单

PySpark是这里的选择，因为环境有一些限制，我没有其他选择来处理大量订单历史记录（~40GB）。以下是我的示例实现：

> from pyspark.ml.regression import AFTSurvivalRegression from
> pyspark.ml.linalg import Vectors
> 
> training = spark.createDataFrame([
>     (1,1.218, 1.0, Vectors.dense(1.560, -0.605)),
>     (1,2.949, 0.0, Vectors.dense(0.346, 2.158)),
>     (2,3.627, 0.0, Vectors.dense(1.380, 0.231)),
>     (2,0.273, 1.0, Vectors.dense(0.520, 1.151)),
>     (3,4.199, 0.0, Vectors.dense(0.795, -0.226))], ["customer_id","label", "censor", "features"]) aft =
> AFTSurvivalRegression()
> 
> model = aft.fit(training)

问题:

pyspark.ml.regression中的AFTSurvivalRegression方法是否能够根据客户id对我的数据集中的记录进行聚类？如果是，请说明如何实施

期望的输出将包含特定客户重新订购不同订单推车的可能性。如何通过扩展代码实现来获得这些值