Mongodb hadoop中的分析实现

Mongodb hadoop中的分析实现,mongodb,hadoop,nosql,Mongodb,Hadoop,Nosql,目前,我们有基于mysql的分析。我们每15分钟阅读一次日志,处理并添加到mysql数据库 随着我们的数据不断增长(有一种情况是,到目前为止增加了900万行,每个月增加了50万行),我们计划将分析转移到无sql数据库 根据我的研究,Hadoop似乎更适合处理日志&它可以处理非常大的数据集 不过,如果我能从专家那里得到一些建议,那就太好了。这可能不是一个好问题。对于这个论坛,但我要说的是,900万行和每月0.50万行似乎不是去noSQL的好理由。这是一个非常小的数据库,您最好的做法是将服务器规模扩

目前,我们有基于mysql的分析。我们每15分钟阅读一次日志,处理并添加到mysql数据库

随着我们的数据不断增长(有一种情况是,到目前为止增加了900万行,每个月增加了50万行),我们计划将分析转移到无sql数据库

根据我的研究,Hadoop似乎更适合处理日志&它可以处理非常大的数据集


不过,如果我能从专家那里得到一些建议,那就太好了。

这可能不是一个好问题。对于这个论坛,但我要说的是,900万行和每月0.50万行似乎不是去noSQL的好理由。这是一个非常小的数据库,您最好的做法是将服务器规模扩大一点(RAM、更多磁盘、移动到SSD等)

我同意其他答案和评论。但是,如果您想评估Hadoop选项,那么下面可以提供一个解决方案

  • Apache Flume和Avro,用于日志收集、还原。Flume可以将数据摄取到Hadoop文件系统(HDFS)中
  • 然后,您可以将Hbase作为分布式可扩展数据存储
  • 借助hbase上的Cloudera Impala,您可以拥有近乎实时(流式)的查询引擎。Impala使用SQL作为其查询语言,因此它将对您有益

这只是一种选择。可以有多种选择,例如水槽+hdfs+蜂箱

这是一个针对有编码问题的人的编程论坛。你的问题会引发100多个意见,但没有答案。我知道这并不完全适合这个论坛。那我该去哪里呢?没有其他地方可以得到最好的答案(