Graph 从大型应用程序收集分析的策略

Graph 从大型应用程序收集分析的策略,graph,analytics,datastore,Graph,Analytics,Datastore,Superfeedr是一种按需分析提要的服务。我们希望为我们的用户提供分析,我们正在调查这样做的最佳策略 简言之,我们希望跟踪系统中的操作数(事件,如:给定提要中的新条目)以及被拒绝的数据(提要的订户数) 当然,可以根据事件“计算”已删除的数据。(订阅源的订阅人数是订阅总数减去取消订阅总数)。然而,由于我们希望随着时间的推移(每天的订阅人数)研究这一点,事件方法可能是次优的,因为我们会一遍又一遍地重新计算相同的事情 如何在你的应用程序中构建这样一个组件?什么信息流?什么数据存储?什么图形解决方案

Superfeedr是一种按需分析提要的服务。我们希望为我们的用户提供分析,我们正在调查这样做的最佳策略

简言之,我们希望跟踪系统中的操作数(事件,如:给定提要中的新条目)以及被拒绝的数据(提要的订户数)

当然,可以根据事件“计算”已删除的数据。(订阅源的订阅人数是订阅总数减去取消订阅总数)。然而,由于我们希望随着时间的推移(每天的订阅人数)研究这一点,事件方法可能是次优的,因为我们会一遍又一遍地重新计算相同的事情

如何在你的应用程序中构建这样一个组件?什么信息流?什么数据存储?什么图形解决方案?等等

我知道这是一个相当开放的问题,但我相信我们不是第一个有这种需要的人

[更新]: 基础设施:我们有一组工人,他们是XMPP客户机,可以一起交互。它们基于EventMachine之外,这意味着它们不会阻塞IO。
预期目标:我们必须能够收集大量数据。目前,我们已经达到了大约200-300 msg/秒,我们的目标是10-100倍。

如果没有关于您的基础设施和预期扩展目标的更多信息,很难说。您可能会发现这张幻灯片很有指导意义。它是在最近的一次会议上提出的

借用推特的想法,你可以考虑一个架构,分为收集、分析和渲染阶段。 收集阶段:超低延迟。非常可扩展。很多绑定选项。发展于

正在处理节点日志事件->->HDFS

分析阶段:类似SQL的查询语言,允许您进行探索性的即席查询

HDFS->->MySQL

渲染阶段:在当前web框架中实现

MySQL->JSON->Memcached->Flash图表

这里有一些帖子是关于如何为W网络选择Flash图表组件的。我个人在这方面很成功


有趣的想法。谢谢我用你的问题完成了这个问题:)