Python 如何使用二进制分类器执行积极的未标记学习?

Python 如何使用二进制分类器执行积极的未标记学习?,python,machine-learning,pyspark,supervised-learning,semisupervised-learning,Python,Machine Learning,Pyspark,Supervised Learning,Semisupervised Learning,我在pyspark中设置了一个bagging分类器,其中一个二进制分类器对阳性样本和相同数量的随机抽样未标记样本进行训练(阳性样本的分数为1,未标记样本的分数为0)。然后模型预测出袋外样本,这个过程会重复,所以现在我计划对每个样本进行平均预测 我的问题是,使用PySpark的输出模型预测是一个概率列,它是每个类的概率向量。例如,二进制分类的输出如下所示: model.transform(test_data).show() +-----+--------------------+ |label|

我在pyspark中设置了一个bagging分类器,其中一个二进制分类器对阳性样本和相同数量的随机抽样未标记样本进行训练(阳性样本的分数为1,未标记样本的分数为0)。然后模型预测出袋外样本,这个过程会重复,所以现在我计划对每个样本进行平均预测

我的问题是,使用PySpark的输出模型预测是一个概率列,它是每个类的概率向量。例如,二进制分类的输出如下所示:

model.transform(test_data).show()
+-----+--------------------+
|label|         probability|
+-----+--------------------+
|    0|[0.294, 0.8]        |
|    1|[0.65, 0.2 ]        |
要从输出此结果的二元分类器执行正的未标记学习,我是否需要删除为负类预测的概率,并且仅使用模型对未标记样本为正的预测