Pyspark标签点聚合_Pyspark - Fatal编程技术网

Pyspark标签点聚合

pyspark

Pyspark标签点聚合,pyspark,Pyspark,我正在使用LabeledPoint执行二进制分类。然后，我尝试将标记点的数量总和（）为1.0，以验证分类是否正确我已将RDD标记如下 lp_RDD = RDD.map(lambda x: LabeledPoint(1 if (flag in x[0]) else 0,x[1])) 我想也许我可以通过以下方法计算出有多少人被标记为1： cnt = lp_RDD.map(lambda x: x[0]).sum() 但我得到了以下错误： 'LabeledPoint' object does no

我正在使用LabeledPoint执行二进制分类。然后，我尝试将标记点的数量总和（）为1.0，以验证分类是否正确

我已将RDD标记如下

lp_RDD = RDD.map(lambda x: LabeledPoint(1 if (flag in x[0]) else 0,x[1]))

我想也许我可以通过以下方法计算出有多少人被标记为1：

cnt = lp_RDD.map(lambda x: x[0]).sum()

但我得到了以下错误：

'LabeledPoint' object does not support indexing

我已经通过打印整个RDD，然后搜索字符串“LabeledPoint（1.0）”来验证标记的RDD是否正确。我只是想知道尝试求和是否有快捷方式？

LabeledPoint具有可用于查找计数或求和的label value成员。请尝试

cnt = lp_RDD.map(lambda x: x.label).sum()