Mongodb Mongdb hadoop集成,加快数据处理速度

Mongodb Mongdb hadoop集成,加快数据处理速度,mongodb,hadoop,Mongodb,Hadoop,Mongodb可以与hadoop集成以实现更快的数据处理,但在集成过程中(Mongodb->hadoop),数据会从Mongodb传输到hadoop。 问题是 1.从mongodb到hadoop的数据传输成本是否比mongodb中的实际数据处理成本更高 2.数据传输(MongoDB->Hadoop)是一次性活动吗?如果是,以后对MongoDB的更新将如何反映在Hadoop中。为了满足“单一真实来源”原则,您应该尽量不“复制”数据,也不应该在HDFS中保留冗余数据 为了避免Mongo Hadoop

Mongodb可以与hadoop集成以实现更快的数据处理,但在集成过程中(Mongodb->hadoop),数据会从Mongodb传输到hadoop。 问题是

1.从mongodb到hadoop的数据传输成本是否比mongodb中的实际数据处理成本更高

2.数据传输(MongoDB->Hadoop)是一次性活动吗?如果是,以后对MongoDB的更新将如何反映在Hadoop中。

为了满足“单一真实来源”原则,您应该尽量不“复制”数据,也不应该在HDFS中保留冗余数据

为了避免Mongo Hadoop连接器允许您直接查询Mongodb而不是本地HDFS。当然,这有一个缺点,即生产数据库的负载更大。 另一种方法是查询mongodb bson转储

回答您的问题:

至1: 如果Hadoop节点“靠近”mongo节点,则开销不会太大。当您使用Hadoops map reduce时,它使您能够使用更多功能,如HIVE、PIG等。。。您不能在Mongos Map Reduce上使用它。 它还允许您根据需要扩展“计算能力”,而无需接触数据库(将使用所有hadoop节点。在MongoDB上,您需要注意切分键)

至2: 你一遍又一遍地做。(您应该使用capped集合,并且配置了一个流来处理它。但我猜您没有使用这些集合)

您应该阅读《大数据》一书中关于
Lambda体系结构的内容。

它们很好地定义了为什么要合并smth。就像MongoDB和Hadoop一样。

谢谢您的详细解释。现在我很清楚,我们需要将数据推送到Hadoop进行处理。你能给我几个我们应该进行这种处理的场景吗(Hadoop->MongoDB集成)