Hadoop查找存储选项
我们计划将现有的应用程序迁移到hadoop中。我们目前正在使用许多查找表/文件作为参考 在hadoop生态系统中存储此类表/文件的最佳选项是什么 1) 创建配置单元/hbase查找表 是否需要单独的mr作业才能加入此查找文件 2) HDFS文件使用了引用查找Hadoop查找存储选项,hadoop,mapreduce,hive,Hadoop,Mapreduce,Hive,我们计划将现有的应用程序迁移到hadoop中。我们目前正在使用许多查找表/文件作为参考 在hadoop生态系统中存储此类表/文件的最佳选项是什么 1) 创建配置单元/hbase查找表 是否需要单独的mr作业才能加入此查找文件 2) HDFS文件使用了引用查找 我们是否也应该对查找表的大小做出决定?如果数据的大小很小,则可以使用。查找数据将复制到执行所需的所有节点 使用数据库存储查找值时,考虑映射器/还原器对数据库的连接数。 < P>如果数据的大小很小,则可以使用。查找数据将复制到执行所需的所有节
我们是否也应该对查找表的大小做出决定?如果数据的大小很小,则可以使用。查找数据将复制到执行所需的所有节点
使用数据库存储查找值时,考虑映射器/还原器对数据库的连接数。
< P>如果数据的大小很小,则可以使用。查找数据将复制到执行所需的所有节点使用数据库存储查找值时,考虑映射器/还原器对数据库的连接数。
< P>选择最佳选项取决于许多因素,如数据的大小和性质、网络基础设施等。你可以考虑以下选项:
- 将数据复制到分布式缓存,以便节点可以加载数据 转换为哈希映射
- 在映射器/还原器中使用键/值存储。例:.
请注意,DB访问可能会导致性能下降 - 将查找数据存储在HDFS上,并在需要时将其连接到正在处理的数据集,这里可以使用Hadoop上更高级别的抽象
您可以通过简单的Hadoop作业(功能)填充其存储。选择最佳选项取决于许多因素,如数据的大小和性质、网络基础设施等。你可以考虑以下选项:
- 将数据复制到分布式缓存,以便节点可以加载数据 转换为哈希映射
- 在映射器/还原器中使用键/值存储。例:.
请注意,DB访问可能会导致性能下降 - 将查找数据存储在HDFS上,并在需要时将其连接到正在处理的数据集,这里可以使用Hadoop上更高级别的抽象