如何利用ApachePySpark中roc_曲线生成的阈值计算精确召回率

如何利用ApachePySpark中roc_曲线生成的阈值计算精确召回率,pyspark,precision,threshold,Pyspark,Precision,Threshold,我有一个在Pyspark中构建的随机森林分类模型。我对测试数据执行了转换函数,得到了输出数据集,即result_df,它有4个附加列,即features、rawPrediction、probability、prediction。现在,我调用sklearn roc_curve api,它将标签列和概率列作为输入,并提供阈值作为输出。那么,如何在result_df的概率列上使用该阈值来生成一个新列,然后如何计算精度和召回率

我有一个在Pyspark中构建的随机森林分类模型。我对测试数据执行了转换函数,得到了输出数据集,即result_df,它有4个附加列,即features、rawPrediction、probability、prediction。现在,我调用sklearn roc_curve api,它将标签列和概率列作为输入,并提供阈值作为输出。那么,如何在result_df的概率列上使用该阈值来生成一个新列,然后如何计算精度和召回率