Hadoop是这方面的合适技术吗?

Hadoop是这方面的合适技术吗?,hadoop,mapreduce,Hadoop,Mapreduce,如果我有数百万条每天不断更新和添加的数据记录,我需要梳理所有符合特定逻辑的记录的数据,然后将匹配的子集插入一个单独的数据库。我会使用Hadoop和MapReduce来完成这样的任务,还是缺少其他技术?我寻找标准RDMS以外的其他数据的主要原因是,所有的基础数据都来自多个源,并且结构不统一。Map Reduce是为可以并行化的算法设计的,并且可以计算和聚合局部结果。一个典型的例子是计算文档中的字数。您可以将其拆分为多个部分,在其中计算一个节点上的一些单词,另一个节点上的一些单词,等等,然后将总数相

如果我有数百万条每天不断更新和添加的数据记录,我需要梳理所有符合特定逻辑的记录的数据,然后将匹配的子集插入一个单独的数据库。我会使用Hadoop和MapReduce来完成这样的任务,还是缺少其他技术?我寻找标准RDMS以外的其他数据的主要原因是,所有的基础数据都来自多个源,并且结构不统一。

Map Reduce是为可以并行化的算法设计的,并且可以计算和聚合局部结果。一个典型的例子是计算文档中的字数。您可以将其拆分为多个部分,在其中计算一个节点上的一些单词,另一个节点上的一些单词,等等,然后将总数相加(显然这是一个简单的示例,但说明了问题的类型)

Hadoop设计用于处理大型数据文件(如日志文件)。默认块大小为64MB,因此拥有数百万条小记录并不适合Hadoop


处理非均匀结构数据的问题时,您可以考虑NoSQL数据库,该数据库被设计为处理许多列为空的数据(如MunGDB)。p> Map Reduce专为可并行化、可计算和聚合局部结果的算法而设计。一个典型的例子是计算文档中的字数。您可以将其拆分为多个部分,在其中计算一个节点上的一些单词,另一个节点上的一些单词,等等,然后将总数相加(显然这是一个简单的示例,但说明了问题的类型)

Hadoop设计用于处理大型数据文件(如日志文件)。默认块大小为64MB,因此拥有数百万条小记录并不适合Hadoop


处理非均匀结构数据的问题时,您可以考虑NoSQL数据库,该数据库被设计为处理许多列为空的数据(如MunGDB)。p> Hadoop/MR是为批量处理而设计的,而不是为实时处理而设计的。因此,必须考虑其他替代方案,如


此外,请查看数据类型。请注意,Hama中的实时处理仍然很粗糙,还有很多改进/工作要做。

Hadoop/MR设计用于批处理,而不是实时处理。因此,必须考虑其他替代方案,如


此外,请查看数据类型。请注意,Hama中的实时处理仍然很粗糙,还有很多改进/工作要做。

我建议使用Storm或Flume。在任何一种情况下,你都可以分析每一条记录,并决定如何处理它。

我建议使用Storm或Flume。在这两种方法中,您都可以分析每个记录,并决定如何处理它。

如果您的数据量不大,而且数百万条记录听起来不是这样的话,我建议您尽量从RDMBS中获得最大的收益,即使您的模式没有得到正确的规范化。 我认为即使结构K1、K2、K3、Blob的tavle也会更有用t
在NoSQL中,KeyValue存储被构建来支持各种风格的无模式数据,但它们的查询能力有限
我认为唯一有用的情况是MongoDB/CoachDB索引无模式数据的能力。您将能够通过某些属性值获取记录

关于Hadoop MapReduce,我认为它没有用处,除非你想利用大量CPU进行处理,或者有大量数据,或者需要分布式排序功能

如果您的数据量不是很大,而且数百万条记录听起来不是这样,我建议您尽量从RDMBS中获取更多信息,即使您的模式没有得到正确的规范化。 我认为即使结构K1、K2、K3、Blob的tavle也会更有用t
在NoSQL中,KeyValue存储被构建来支持各种风格的无模式数据,但它们的查询能力有限
我认为唯一有用的情况是MongoDB/CoachDB索引无模式数据的能力。您将能够通过某些属性值获取记录

关于Hadoop MapReduce,我认为它没有用处,除非你想利用大量CPU进行处理,或者有大量数据,或者需要分布式排序功能

我认为查询更多的是关于Hadoop中的批处理与实时处理。在这种情况下,没有一个Hadoop不是为实时处理而设计的。我认为查询更多的是关于Hadoop中的批处理与实时处理。在这种情况下,没有一个Hadoop不是为实时处理而设计的。