Hadoop查找存储选项

Hadoop查找存储选项,hadoop,mapreduce,hive,Hadoop,Mapreduce,Hive,我们计划将现有的应用程序迁移到hadoop中。我们目前正在使用许多查找表/文件作为参考 在hadoop生态系统中存储此类表/文件的最佳选项是什么 1) 创建配置单元/hbase查找表 是否需要单独的mr作业才能加入此查找文件 2) HDFS文件使用了引用查找 我们是否也应该对查找表的大小做出决定?如果数据的大小很小,则可以使用。查找数据将复制到执行所需的所有节点 使用数据库存储查找值时,考虑映射器/还原器对数据库的连接数。 < P>如果数据的大小很小,则可以使用。查找数据将复制到执行所需的所有节

我们计划将现有的应用程序迁移到hadoop中。我们目前正在使用许多查找表/文件作为参考

在hadoop生态系统中存储此类表/文件的最佳选项是什么

1) 创建配置单元/hbase查找表 是否需要单独的mr作业才能加入此查找文件

2) HDFS文件使用了引用查找


我们是否也应该对查找表的大小做出决定?

如果数据的大小很小,则可以使用。查找数据将复制到执行所需的所有节点


使用数据库存储查找值时,考虑映射器/还原器对数据库的连接数。

< P>如果数据的大小很小,则可以使用。查找数据将复制到执行所需的所有节点


使用数据库存储查找值时,考虑映射器/还原器对数据库的连接数。

< P>选择最佳选项取决于许多因素,如数据的大小和性质、网络基础设施等。你可以考虑以下选项:

  • 将数据复制到分布式缓存,以便节点可以加载数据 转换为哈希映射
  • 在映射器/还原器中使用键/值存储。例:.
    请注意,DB访问可能会导致性能下降
  • 将查找数据存储在HDFS上,并在需要时将其连接到正在处理的数据集,这里可以使用Hadoop上更高级别的抽象
如果您要使用键值存储,我建议您查看哪个实际上是分布式哈希表。
您可以通过简单的Hadoop作业(功能)填充其存储。

选择最佳选项取决于许多因素,如数据的大小和性质、网络基础设施等。你可以考虑以下选项:

  • 将数据复制到分布式缓存,以便节点可以加载数据 转换为哈希映射
  • 在映射器/还原器中使用键/值存储。例:.
    请注意,DB访问可能会导致性能下降
  • 将查找数据存储在HDFS上,并在需要时将其连接到正在处理的数据集,这里可以使用Hadoop上更高级别的抽象
如果您要使用键值存储,我建议您查看哪个实际上是分布式哈希表。 您可以通过简单的Hadoop作业(功能)填充其存储