Hadoop Mapreduce功能_Hadoop_Hive - Fatal编程技术网

Hadoop Mapreduce功能

hadoop hive

Hadoop Mapreduce功能,hadoop,hive,Hadoop,Hive,假设我想使用“Order By”子句执行Select查询，并且我的数据分布在多台机器上。映射如何减少获取数据，以及在何处执行排序查询 Map-Reduce可用于实现分布式的“订购方式” 。。。Yahoo的Hadoop集群之一在209中对1 TB的数据进行了排序秒。。。排序使用了1800张地图和1800张地图这可以通过将顺序键映射到范围（通过其值）来实现然而，Hive正在用一个减速机实现“Order By” 。。。为了对所有结果进行总排序，必须有一个用于对最终输出进行排序的减速机。如果

假设我想使用“Order By”子句执行Select查询，并且我的数据分布在多台机器上。映射如何减少获取数据，以及在何处执行排序查询
Map-Reduce可用于实现分布式的“订购方式”
。。。Yahoo的Hadoop集群之一在209中对1 TB的数据进行了排序秒。。。排序使用了1800张地图和1800张地图

这可以通过将顺序键映射到范围（通过其值）来实现

然而，Hive正在用一个减速机实现“Order By”
。。。为了对所有结果进行总排序，必须有一个用于对最终输出进行排序的减速机。如果输出中的行数太大，单个减速器可能需要很长时间才能安装完成

Map-Reduce可用于实现分布式的“Order-By”
。。。Yahoo的Hadoop集群之一在209中对1 TB的数据进行了排序秒。。。排序使用了1800张地图和1800张地图

这可以通过将顺序键映射到范围（通过其值）来实现

然而，Hive正在用一个减速机实现“Order By”
。。。为了对所有结果进行总排序，必须有一个用于对最终输出进行排序的减速机。如果输出中的行数太大，单个减速器可能需要很长时间才能安装完成

它是如何决定执行查询需要多少map&reduce任务的？以及在何处对最终输出进行排序（在哪个内存中）？根据数据源大小映射（但某些数据格式限制为1个映射）。Reducer-1和Reducer在哪里对最终输出进行排序（在哪个内存中）？我没有像你说的那样得到问题：“为了对所有结果进行总排序，必须有一个Reducer对最终输出进行排序”，所以我的问题是这一个Reducer在哪里对最终输出进行排序？在哪个数据节点中执行最终“订购依据”？还是像在每个节点中执行“ORDER BY”之后，总输出（1TB数据）被收集到主节点中，然后在主节点中执行最终的“ORDER BY”子句？它如何决定执行查询需要多少map&REDUCT任务？以及在何处对最终输出进行排序（在哪个内存中）？根据数据源大小映射（但某些数据格式限制为1个映射）。Reducer-1和Reducer在哪里对最终输出进行排序（在哪个内存中）？我没有像你说的那样得到问题：“为了对所有结果进行总排序，必须有一个Reducer对最终输出进行排序”，所以我的问题是这一个Reducer在哪里对最终输出进行排序？在哪个数据节点中执行最终“订购依据”？还是像在每个节点中执行“ORDER BY”之后，总输出（1TB数据）在主节点中收集，然后在主节点中执行最终的“ORDER BY”子句？