Hadoop是这方面的合适技术吗？_Hadoop_Mapreduce

Hadoop是这方面的合适技术吗？

hadoop mapreduce

Hadoop是这方面的合适技术吗？,hadoop,mapreduce,Hadoop,Mapreduce,如果我有数百万条每天不断更新和添加的数据记录，我需要梳理所有符合特定逻辑的记录的数据，然后将匹配的子集插入一个单独的数据库。我会使用Hadoop和MapReduce来完成这样的任务，还是缺少其他技术？我寻找标准RDMS以外的其他数据的主要原因是，所有的基础数据都来自多个源，并且结构不统一。Map Reduce是为可以并行化的算法设计的，并且可以计算和聚合局部结果。一个典型的例子是计算文档中的字数。您可以将其拆分为多个部分，在其中计算一个节点上的一些单词，另一个节点上的一些单词，等等，然后将总数相

如果我有数百万条每天不断更新和添加的数据记录，我需要梳理所有符合特定逻辑的记录的数据，然后将匹配的子集插入一个单独的数据库。我会使用Hadoop和MapReduce来完成这样的任务，还是缺少其他技术？我寻找标准RDMS以外的其他数据的主要原因是，所有的基础数据都来自多个源，并且结构不统一。

Map Reduce是为可以并行化的算法设计的，并且可以计算和聚合局部结果。一个典型的例子是计算文档中的字数。您可以将其拆分为多个部分，在其中计算一个节点上的一些单词，另一个节点上的一些单词，等等，然后将总数相加（显然这是一个简单的示例，但说明了问题的类型）

Hadoop设计用于处理大型数据文件（如日志文件）。默认块大小为64MB，因此拥有数百万条小记录并不适合Hadoop

处理非均匀结构数据的问题时，您可以考虑NoSQL数据库，该数据库被设计为处理许多列为空的数据（如MunGDB）。p> Map Reduce专为可并行化、可计算和聚合局部结果的算法而设计。一个典型的例子是计算文档中的字数。您可以将其拆分为多个部分，在其中计算一个节点上的一些单词，另一个节点上的一些单词，等等，然后将总数相加（显然这是一个简单的示例，但说明了问题的类型）

Hadoop设计用于处理大型数据文件（如日志文件）。默认块大小为64MB，因此拥有数百万条小记录并不适合Hadoop

处理非均匀结构数据的问题时，您可以考虑NoSQL数据库，该数据库被设计为处理许多列为空的数据（如MunGDB）。p> Hadoop/MR是为批量处理而设计的，而不是为实时处理而设计的。因此，必须考虑其他替代方案，如

此外，请查看数据类型。请注意，Hama中的实时处理仍然很粗糙，还有很多改进/工作要做。

Hadoop/MR设计用于批处理，而不是实时处理。因此，必须考虑其他替代方案，如

此外，请查看数据类型。请注意，Hama中的实时处理仍然很粗糙，还有很多改进/工作要做。

我建议使用Storm或Flume。在任何一种情况下，你都可以分析每一条记录，并决定如何处理它。

我建议使用Storm或Flume。在这两种方法中，您都可以分析每个记录，并决定如何处理它。

如果您的数据量不大，而且数百万条记录听起来不是这样的话，我建议您尽量从RDMBS中获得最大的收益，即使您的模式没有得到正确的规范化。我认为即使结构K1、K2、K3、Blob的tavle也会更有用t
在NoSQL中，KeyValue存储被构建来支持各种风格的无模式数据，但它们的查询能力有限
我认为唯一有用的情况是MongoDB/CoachDB索引无模式数据的能力。您将能够通过某些属性值获取记录

关于Hadoop MapReduce，我认为它没有用处，除非你想利用大量CPU进行处理，或者有大量数据，或者需要分布式排序功能

如果您的数据量不是很大，而且数百万条记录听起来不是这样，我建议您尽量从RDMBS中获取更多信息，即使您的模式没有得到正确的规范化。我认为即使结构K1、K2、K3、Blob的tavle也会更有用t
在NoSQL中，KeyValue存储被构建来支持各种风格的无模式数据，但它们的查询能力有限
我认为唯一有用的情况是MongoDB/CoachDB索引无模式数据的能力。您将能够通过某些属性值获取记录

关于Hadoop MapReduce，我认为它没有用处，除非你想利用大量CPU进行处理，或者有大量数据，或者需要分布式排序功能

我认为查询更多的是关于Hadoop中的批处理与实时处理。在这种情况下，没有一个Hadoop不是为实时处理而设计的。我认为查询更多的是关于Hadoop中的批处理与实时处理。在这种情况下，没有一个Hadoop不是为实时处理而设计的。