用Python实现实时数据处理

用Python实现实时数据处理,python,real-time,tornado,Python,Real Time,Tornado,我正在从事一个项目,该项目将使用来自Twitter流API的数据,并计算某些哈希标记。但我很难理解我的案例需要什么样的体系结构。我应该使用Tornado还是有更合适的框架来实现这一点?这取决于你想对tweet做什么。简单地阅读推特流并不是我见过的问题。事实上,这可以在AWS微实例上完成。我甚至在实时提要上运行更高级的回归算法。如果您试图处理一组历史tweet,则会出现可伸缩性问题。由于tweet的生成速度非常快,因此处理历史tweet的速度可能非常慢。这时您应该尝试并行化。谢谢您的回复。现在我要

我正在从事一个项目,该项目将使用来自Twitter流API的数据,并计算某些哈希标记。但我很难理解我的案例需要什么样的体系结构。我应该使用Tornado还是有更合适的框架来实现这一点?

这取决于你想对tweet做什么。简单地阅读推特流并不是我见过的问题。事实上,这可以在AWS微实例上完成。我甚至在实时提要上运行更高级的回归算法。如果您试图处理一组历史tweet,则会出现可伸缩性问题。由于tweet的生成速度非常快,因此处理历史tweet的速度可能非常慢。这时您应该尝试并行化。

谢谢您的回复。现在我要读一个流,假设每30分钟计算一次新消息。这是我在理解我应该在哪里运行用于检索和存储消息的作业时遇到的问题。如果您只关心带有特定标签的tweet,那么您可能希望在tweet传入时进行过滤。事实上,如果你不关心Tweet的其余部分,你应该写一个包含计数的表。我发现处理大量数据的关键是在接收数据时将其减少到您真正需要的程度。对这些数据的任何分析都是非常轻量级的。当然,这意味着您需要决定哪些信息是您需要的,哪些信息是您不需要的。