Hadoop 如何从hdfs获取特定数据?
我需要一些关于以下场景的解释 场景:--> 假设在一个1000PB的文件中有世界上每个人的完整记录,我们将该文件转换为HDFS(假设反射系数=9BL\U大小=128MB),并将该文件分成“n”个块 假设客户要求我们搜索具有某些唯一约束(关键)的特定人员。假设此人的数据位于第n个块中Hadoop 如何从hdfs获取特定数据?,hadoop,apache-pig,hdfs,Hadoop,Apache Pig,Hdfs,我需要一些关于以下场景的解释 场景:--> 假设在一个1000PB的文件中有世界上每个人的完整记录,我们将该文件转换为HDFS(假设反射系数=9BL\U大小=128MB),并将该文件分成“n”个块 假设客户要求我们搜索具有某些唯一约束(关键)的特定人员。假设此人的数据位于第n个块中 我的问题是MapReduce函数在这种情况下如何工作?它是直接读取第n个块还是将第一个节点读取到第n个节点?此用例是为之设计的。此用例是为之设计的。此用例是为之设计的。此用例是为之设计的。HDFS是良好的顺序访问,而
我的问题是MapReduce函数在这种情况下如何工作?它是直接读取第n个块还是将第一个节点读取到第n个节点?此用例是为之设计的。此用例是为之设计的。此用例是为之设计的。此用例是为之设计的。
HDFS
是良好的顺序访问,而HBase
则是为其设计的
- 单随机选择
- 按键扫描范围
- 变量模式
因此,正如@WinnieNicklaus所建议的,如果您正在寻找随机访问,您应该考虑将数据加载到HBase中。
HDFS
是良好的顺序访问,而HBase
是良好的顺序访问
- 单随机选择
- 按键扫描范围
- 变量模式
因此,正如@WinnieNicklaus所建议的,如果您正在寻找随机访问,您应该考虑将数据加载到HBase中。
HDFS
是良好的顺序访问,而HBase
是良好的顺序访问
- 单随机选择
- 按键扫描范围
- 变量模式
因此,正如@WinnieNicklaus所建议的,如果您正在寻找随机访问,您应该考虑将数据加载到HBase中。
HDFS
是良好的顺序访问,而HBase
是良好的顺序访问
- 单随机选择
- 按键扫描范围
- 变量模式
因此,正如@WinnieNicklaus所建议的,如果您正在寻找随机访问,您应该考虑将数据加载到HBase中。HDFS如何知道哪个片段包含数据?您必须创建一个M/R作业,将1000PB拆分为100万个作业,然后全部执行,一个作业(您不知道是哪一个)将为匹配发出一行。HDFS如何知道哪个片段包含数据?您必须创建一个M/R作业,将1000PB拆分为100万个作业,然后全部执行,一个作业(您不知道是哪一个)将为匹配发出一行。HDFS如何知道哪个片段包含数据?您必须创建一个M/R作业,将1000PB拆分为100万个作业,然后全部执行,一个作业(您不知道是哪一个)将为匹配发出一行。HDFS如何知道哪个片段包含数据?您必须创建一个M/R作业,将1000PB拆分为100万个作业,然后全部执行,一个作业(您不知道是哪一个)将为匹配发出一行。