Hadoop 如何从hdfs获取特定数据？_Hadoop_Apache Pig_Hdfs

Hadoop 如何从hdfs获取特定数据？

hadoop apache-pig

Hadoop 如何从hdfs获取特定数据？,hadoop,apache-pig,hdfs,Hadoop,Apache Pig,Hdfs,我需要一些关于以下场景的解释场景：--> 假设在一个1000PB的文件中有世界上每个人的完整记录，我们将该文件转换为HDFS（假设反射系数=9BL\U大小=128MB），并将该文件分成“n”个块假设客户要求我们搜索具有某些唯一约束（关键）的特定人员。假设此人的数据位于第n个块中我的问题是MapReduce函数在这种情况下如何工作？它是直接读取第n个块还是将第一个节点读取到第n个节点？此用例是为之设计的。此用例是为之设计的。此用例是为之设计的。此用例是为之设计的。HDFS是良好的顺序访问，而

我需要一些关于以下场景的解释

场景：--> 假设在一个1000PB的文件中有世界上每个人的完整记录，我们将该文件转换为HDFS（假设反射系数=9BL\U大小=128MB），并将该文件分成“n”个块

假设客户要求我们搜索具有某些唯一约束（关键）的特定人员。假设此人的数据位于第n个块中

我的问题是MapReduce函数在这种情况下如何工作？它是直接读取第n个块还是将第一个节点读取到第n个节点？

此用例是为之设计的。

HDFS

是良好的顺序访问，而

HBase

则是为其设计的

单随机选择
按键扫描范围
变量模式

因此，正如@WinnieNicklaus所建议的，如果您正在寻找随机访问，您应该考虑将数据加载到HBase中。

HDFS

是良好的顺序访问，而

HBase

是良好的顺序访问

单随机选择
按键扫描范围
变量模式

因此，正如@WinnieNicklaus所建议的，如果您正在寻找随机访问，您应该考虑将数据加载到HBase中。

HDFS

是良好的顺序访问，而

HBase

是良好的顺序访问

单随机选择
按键扫描范围
变量模式

因此，正如@WinnieNicklaus所建议的，如果您正在寻找随机访问，您应该考虑将数据加载到HBase中。

HDFS

是良好的顺序访问，而

HBase

是良好的顺序访问

单随机选择
按键扫描范围
变量模式

因此，正如@WinnieNicklaus所建议的，如果您正在寻找随机访问，您应该考虑将数据加载到HBase中。

HDFS如何知道哪个片段包含数据？您必须创建一个M/R作业，将1000PB拆分为100万个作业，然后全部执行，一个作业（您不知道是哪一个）将为匹配发出一行。HDFS如何知道哪个片段包含数据？您必须创建一个M/R作业，将1000PB拆分为100万个作业，然后全部执行，一个作业（您不知道是哪一个）将为匹配发出一行。HDFS如何知道哪个片段包含数据？您必须创建一个M/R作业，将1000PB拆分为100万个作业，然后全部执行，一个作业（您不知道是哪一个）将为匹配发出一行。HDFS如何知道哪个片段包含数据？您必须创建一个M/R作业，将1000PB拆分为100万个作业，然后全部执行，一个作业（您不知道是哪一个）将为匹配发出一行。