Python mongoDB数据流分析策略_Python_Mongodb_Architecture_Analytics_Spark Streaming

Python mongoDB数据流分析策略

python mongodb architecture

Python mongoDB数据流分析策略,python,mongodb,architecture,analytics,spark-streaming,Python,Mongodb,Architecture,Analytics,Spark Streaming,我对大数据的世界还很陌生，经过几个小时的阅读和文档记录，我决定征求你的意见。交易如下：我需要对来自mongoDB的数据进行实时分析。我的分析器必须用解释语言编写（最好是用Python）从我读到的内容来看，spark streaming乍一看似乎是一个完美的工具。但至少在Python中，似乎不可能根据上下文从mongoDB创建输入数据流。是否有其他选择，例如使用ApacheKafka将数据从mongoDB传递到spark？或者我应该尝试另一个框架，比如ApacheStorm 在所有这些对我来说

我对大数据的世界还很陌生，经过几个小时的阅读和文档记录，我决定征求你的意见。交易如下：

我需要对来自mongoDB的数据进行实时分析。我的分析器必须用解释语言编写（最好是用Python）

从我读到的内容来看，spark streaming乍一看似乎是一个完美的工具。但至少在Python中，似乎不可能根据上下文从mongoDB创建输入数据流。是否有其他选择，例如使用ApacheKafka将数据从mongoDB传递到spark？或者我应该尝试另一个框架，比如ApacheStorm

在所有这些对我来说都是新的技术中，我有点迷失了方向。你们会用什么框架来实现这个分析器？

Mongo似乎不是合适的工具。您所描述的是一个系统，它从您拥有的任何应用程序中获取流式输入，将其存储在kafka之类的队列中，然后将storm/spark放在上面以理解这些数据，最后将其存储在mongo之类的db中。mongo不适合作为队列，不仅因为它不是这样设计的，但也因为它的写一致性很差（我见过>1%的写失败）@RickyA你有吗？在什么情况下？任何情况下，尤其是在高写负载（如您所描述的）下。Mongo只是写的不一致。这对于您的应用程序来说可能是可以接受的，但请记住这一点。永远不要把你们真正关心的数据存储在那个里。@RickyA，嗯，很有趣，我从来并没有经历过在不考虑负载的情况下丢失一个已确认的写操作