Mapreduce 如何使用map reduce级联跟踪大量统计数据？_Mapreduce_Statistics_Cascading

Mapreduce 如何使用map reduce级联跟踪大量统计数据？

mapreduce statistics

Mapreduce 如何使用map reduce级联跟踪大量统计数据？,mapreduce,statistics,cascading,Mapreduce,Statistics,Cascading,我有一系列map reduce作业来处理用户数据（使用级联框架实现），我希望跟踪大量细粒度统计数据（我可以有100到1000个用户，每个用户20个统计数据，因此，总共可能有5000到10000个统计数据）。我想使用map reduce计数器来构建这些统计数据，因为在代码中使用它们非常方便，但是map reduce计数器的数量是有限制的（默认为120），根据这篇文章：如果我有超过20/50的自定义计数器，我不应该使用它们问题：在这个map reduce上下文中，有没有合适的方法来跟踪我的统计

我有一系列map reduce作业来处理用户数据（使用级联框架实现），我希望跟踪大量细粒度统计数据（我可以有100到1000个用户，每个用户20个统计数据，因此，总共可能有5000到10000个统计数据）。我想使用map reduce计数器来构建这些统计数据，因为在代码中使用它们非常方便，但是map reduce计数器的数量是有限制的（默认为120），根据这篇文章：如果我有超过20/50的自定义计数器，我不应该使用它们

问题：在这个map reduce上下文中，有没有合适的方法来跟踪我的统计数据，使用类似计数器的模式？我所说的类计数器，是指在代码中的任何地方都可以访问计数器，并能够在需要时增加它们

提前感谢

如果您的统计数据只是计数，并且它们在并行阶段仅递增，那么您可以为每个实例分别收集它们，然后将它们相加（reduce）。实际上，这就是MapReduce的全部思想。

是的，谢谢。最后，我创建了特定的级联函数来生成事件，所有这些事件都流到一个唯一的管道，该管道通过维度+计数器名称和相关增量值之和来聚合它们。