Apache spark 如何查找在地图部件中创建的关键点数量?

Apache spark 如何查找在地图部件中创建的关键点数量?,apache-spark,rdd,Apache Spark,Rdd,我正在尝试编写Spark应用程序,该应用程序将为我找到在map函数中创建的键数。我找不到允许我这样做的函数 我想到的一种方法是使用累加器,在reduce函数中将累加器变量加1。我的想法是基于累加器变量作为计数器在节点之间共享的假设 请指导。如果您正在寻找类似spark中Hadoop计数器的东西,最准确的近似值是一个累加器,您可以在每个任务中增加它,但您没有spark迄今为止处理的数据量的任何信息 如果您只想知道rdd中有多少个不同的键,您可以做一些事情,比如计算不同的映射键rdd.mapt=>t

我正在尝试编写Spark应用程序,该应用程序将为我找到在map函数中创建的键数。我找不到允许我这样做的函数

我想到的一种方法是使用累加器,在reduce函数中将累加器变量加1。我的想法是基于累加器变量作为计数器在节点之间共享的假设


请指导。

如果您正在寻找类似spark中Hadoop计数器的东西,最准确的近似值是一个累加器,您可以在每个任务中增加它,但您没有spark迄今为止处理的数据量的任何信息

如果您只想知道rdd中有多少个不同的键,您可以做一些事情,比如计算不同的映射键rdd.mapt=>t_1.distinct.count

希望这对你有用