Mapreduce 如何使用map reduce级联跟踪大量统计数据?

Mapreduce 如何使用map reduce级联跟踪大量统计数据?,mapreduce,statistics,cascading,Mapreduce,Statistics,Cascading,我有一系列map reduce作业来处理用户数据(使用级联框架实现),我希望跟踪大量细粒度统计数据(我可以有100到1000个用户,每个用户20个统计数据,因此,总共可能有5000到10000个统计数据)。 我想使用map reduce计数器来构建这些统计数据,因为在代码中使用它们非常方便,但是map reduce计数器的数量是有限制的(默认为120),根据这篇文章: 如果我有超过20/50的自定义计数器,我不应该使用它们 问题:在这个map reduce上下文中,有没有合适的方法来跟踪我的统计

我有一系列map reduce作业来处理用户数据(使用级联框架实现),我希望跟踪大量细粒度统计数据(我可以有100到1000个用户,每个用户20个统计数据,因此,总共可能有5000到10000个统计数据)。 我想使用map reduce计数器来构建这些统计数据,因为在代码中使用它们非常方便,但是map reduce计数器的数量是有限制的(默认为120),根据这篇文章: 如果我有超过20/50的自定义计数器,我不应该使用它们

问题:在这个map reduce上下文中,有没有合适的方法来跟踪我的统计数据,使用类似计数器的模式?我所说的类计数器,是指在代码中的任何地方都可以访问计数器,并能够在需要时增加它们

提前感谢
register

如果您的统计数据只是计数,并且它们在并行阶段仅递增,那么您可以为每个实例分别收集它们,然后将它们相加(reduce)。实际上,这就是MapReduce的全部思想。

是的,谢谢。最后,我创建了特定的级联函数来生成事件,所有这些事件都流到一个唯一的管道,该管道通过维度+计数器名称和相关增量值之和来聚合它们。