HDFS是否需要与MapReduce一起使用?
我们正在探索使用MR来并行化长时间运行的流程。我们所有的数据目前都驻留在RDBMS中。我们了解HDFS是MR的底层基于文件的数据存储,但不确定以下几点:HDFS是否需要与MapReduce一起使用?,mapreduce,hdfs,Mapreduce,Hdfs,我们正在探索使用MR来并行化长时间运行的流程。我们所有的数据目前都驻留在RDBMS中。我们了解HDFS是MR的底层基于文件的数据存储,但不确定以下几点: 我们是否必须将所有RDBMS数据移动到HDFS以使用MR 这样的行动是永久性的还是临时性的,仅在MR流程的生命周期内 当jobs仍然从传统来源(而不是HDFS)访问数据时,我们是否可以将MR用于其并行功能 我不认为你必须把所有的RDBMS数据移到HDFS上,使用Mr.让我们来看看Sqoop如何从RDBMS到Hbas/HDFS加载数据。p>
- 我们是否必须将所有RDBMS数据移动到HDFS以使用MR
- 这样的行动是永久性的还是临时性的,仅在MR流程的生命周期内
- 当jobs仍然从传统来源(而不是HDFS)访问数据时,我们是否可以将MR用于其并行功能
[DBInputFormat]
(即)的帮助下加载数据。- 如果性能和可扩展性是您的首要任务,那么您必须这样做 将所有数据从RDBMS移动到HDFS以实现高效处理
- 乔布斯先生处理来自HDFS内外的数据。在数据被删除之后 您可以通过MR或仅使用HDFS从HDFS导入数据 其他来源的API
- 不,当作业仍然存在时,不能将MR用于其并行功能 从传统来源访问数据。乔布斯先生分割输入数据 并将其传递给各种地图。与传统的来源,它 这是不可能的