Pyspark标签点聚合
我正在使用LabeledPoint执行二进制分类。然后,我尝试将标记点的数量总和()为1.0,以验证分类是否正确 我已将RDD标记如下Pyspark标签点聚合,pyspark,Pyspark,我正在使用LabeledPoint执行二进制分类。然后,我尝试将标记点的数量总和()为1.0,以验证分类是否正确 我已将RDD标记如下 lp_RDD = RDD.map(lambda x: LabeledPoint(1 if (flag in x[0]) else 0,x[1])) 我想也许我可以通过以下方法计算出有多少人被标记为1: cnt = lp_RDD.map(lambda x: x[0]).sum() 但我得到了以下错误: 'LabeledPoint' object does no
lp_RDD = RDD.map(lambda x: LabeledPoint(1 if (flag in x[0]) else 0,x[1]))
我想也许我可以通过以下方法计算出有多少人被标记为1:
cnt = lp_RDD.map(lambda x: x[0]).sum()
但我得到了以下错误:
'LabeledPoint' object does not support indexing
我已经通过打印整个RDD,然后搜索字符串“LabeledPoint(1.0)”来验证标记的RDD是否正确。我只是想知道尝试求和是否有快捷方式?LabeledPoint具有可用于查找计数或求和的label value成员。请尝试
cnt = lp_RDD.map(lambda x: x.label).sum()