Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 如何从hdfs获取特定数据?_Hadoop_Apache Pig_Hdfs - Fatal编程技术网

Hadoop 如何从hdfs获取特定数据?

Hadoop 如何从hdfs获取特定数据?,hadoop,apache-pig,hdfs,Hadoop,Apache Pig,Hdfs,我需要一些关于以下场景的解释 场景:--> 假设在一个1000PB的文件中有世界上每个人的完整记录,我们将该文件转换为HDFS(假设反射系数=9BL\U大小=128MB),并将该文件分成“n”个块 假设客户要求我们搜索具有某些唯一约束(关键)的特定人员。假设此人的数据位于第n个块中 我的问题是MapReduce函数在这种情况下如何工作?它是直接读取第n个块还是将第一个节点读取到第n个节点?此用例是为之设计的。此用例是为之设计的。此用例是为之设计的。此用例是为之设计的。HDFS是良好的顺序访问,而

我需要一些关于以下场景的解释

场景:--> 假设在一个1000PB的文件中有世界上每个人的完整记录,我们将该文件转换为HDFS(假设反射系数=9BL\U大小=128MB),并将该文件分成“n”个块

假设客户要求我们搜索具有某些唯一约束(关键)的特定人员。假设此人的数据位于第n个块中


我的问题是MapReduce函数在这种情况下如何工作?它是直接读取第n个块还是将第一个节点读取到第n个节点?

此用例是为之设计的。

此用例是为之设计的。

此用例是为之设计的。

此用例是为之设计的。

HDFS
是良好的顺序访问,而
HBase
则是为其设计的

  • 单随机选择
  • 按键扫描范围
  • 变量模式

因此,正如@WinnieNicklaus所建议的,如果您正在寻找随机访问,您应该考虑将数据加载到HBase中。

HDFS
是良好的顺序访问,而
HBase
是良好的顺序访问

  • 单随机选择
  • 按键扫描范围
  • 变量模式

因此,正如@WinnieNicklaus所建议的,如果您正在寻找随机访问,您应该考虑将数据加载到HBase中。

HDFS
是良好的顺序访问,而
HBase
是良好的顺序访问

  • 单随机选择
  • 按键扫描范围
  • 变量模式

因此,正如@WinnieNicklaus所建议的,如果您正在寻找随机访问,您应该考虑将数据加载到HBase中。

HDFS
是良好的顺序访问,而
HBase
是良好的顺序访问

  • 单随机选择
  • 按键扫描范围
  • 变量模式

因此,正如@WinnieNicklaus所建议的,如果您正在寻找随机访问,您应该考虑将数据加载到HBase中。

HDFS如何知道哪个片段包含数据?您必须创建一个M/R作业,将1000PB拆分为100万个作业,然后全部执行,一个作业(您不知道是哪一个)将为匹配发出一行。HDFS如何知道哪个片段包含数据?您必须创建一个M/R作业,将1000PB拆分为100万个作业,然后全部执行,一个作业(您不知道是哪一个)将为匹配发出一行。HDFS如何知道哪个片段包含数据?您必须创建一个M/R作业,将1000PB拆分为100万个作业,然后全部执行,一个作业(您不知道是哪一个)将为匹配发出一行。HDFS如何知道哪个片段包含数据?您必须创建一个M/R作业,将1000PB拆分为100万个作业,然后全部执行,一个作业(您不知道是哪一个)将为匹配发出一行。