Machine learning PySpark中的加速失效时间模型用于模拟重复事件

Machine learning PySpark中的加速失效时间模型用于模拟重复事件,machine-learning,pyspark,apache-spark-ml,survival-analysis,survival,Machine Learning,Pyspark,Apache Spark Ml,Survival Analysis,Survival,我试图利用PySpark中的加速故障时间模型,从客户的订单历史中预测客户重新订购订单车的概率。 我的输入数据包含 作为预测因素的客户和相应订单购物车的各种功能 两个连续订单之间的天数作为标签和 以前观察到的订单为未审查订单,未来订单为审查订单 PySpark是这里的选择,因为环境有一些限制,我没有其他选择来处理大量订单历史记录(~40GB)。以下是我的示例实现: > from pyspark.ml.regression import AFTSurvivalRegression fro

我试图利用PySpark中的加速故障时间模型,从客户的订单历史中预测客户重新订购订单车的概率。 我的输入数据包含

  • 作为预测因素的客户和相应订单购物车的各种功能
  • 两个连续订单之间的天数作为标签和
  • 以前观察到的订单为未审查订单,未来订单为审查订单

PySpark是这里的选择,因为环境有一些限制,我没有其他选择来处理大量订单历史记录(~40GB)。以下是我的示例实现:

> from pyspark.ml.regression import AFTSurvivalRegression from
> pyspark.ml.linalg import Vectors
> 
> training = spark.createDataFrame([
>     (1,1.218, 1.0, Vectors.dense(1.560, -0.605)),
>     (1,2.949, 0.0, Vectors.dense(0.346, 2.158)),
>     (2,3.627, 0.0, Vectors.dense(1.380, 0.231)),
>     (2,0.273, 1.0, Vectors.dense(0.520, 1.151)),
>     (3,4.199, 0.0, Vectors.dense(0.795, -0.226))], ["customer_id","label", "censor", "features"]) aft =
> AFTSurvivalRegression()
> 
> model = aft.fit(training)
问题:

  • pyspark.ml.regression中的AFTSurvivalRegression方法是否能够根据客户id对我的数据集中的记录进行聚类?如果是,请说明如何实施
  • 期望的输出将包含特定客户重新订购不同订单推车的可能性。如何通过扩展代码实现来获得这些值