Pyspark标签点聚合

Pyspark标签点聚合,pyspark,Pyspark,我正在使用LabeledPoint执行二进制分类。然后,我尝试将标记点的数量总和()为1.0,以验证分类是否正确 我已将RDD标记如下 lp_RDD = RDD.map(lambda x: LabeledPoint(1 if (flag in x[0]) else 0,x[1])) 我想也许我可以通过以下方法计算出有多少人被标记为1: cnt = lp_RDD.map(lambda x: x[0]).sum() 但我得到了以下错误: 'LabeledPoint' object does no

我正在使用LabeledPoint执行二进制分类。然后,我尝试将标记点的数量总和()为1.0,以验证分类是否正确

我已将RDD标记如下

lp_RDD = RDD.map(lambda x: LabeledPoint(1 if (flag in x[0]) else 0,x[1]))
我想也许我可以通过以下方法计算出有多少人被标记为1:

cnt = lp_RDD.map(lambda x: x[0]).sum()
但我得到了以下错误:

'LabeledPoint' object does not support indexing

我已经通过打印整个RDD,然后搜索字符串“LabeledPoint(1.0)”来验证标记的RDD是否正确。我只是想知道尝试求和是否有快捷方式?

LabeledPoint具有可用于查找计数或求和的label value成员。请尝试

cnt = lp_RDD.map(lambda x: x.label).sum()