Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop Mapreduce功能_Hadoop_Hive - Fatal编程技术网

Hadoop Mapreduce功能

Hadoop Mapreduce功能,hadoop,hive,Hadoop,Hive,假设我想使用“Order By”子句执行Select查询,并且我的数据分布在多台机器上。映射如何减少获取数据,以及在何处执行排序查询 Map-Reduce可用于实现分布式的“订购方式” 。。。Yahoo的Hadoop集群之一在209中对1 TB的数据进行了排序 秒。。。排序使用了1800张地图和1800张地图 这可以通过将顺序键映射到范围(通过其值)来实现 然而,Hive正在用一个减速机实现“Order By” 。。。为了对所有结果进行总排序,必须有一个 用于对最终输出进行排序的减速机。如果

假设我想使用“Order By”子句执行Select查询,并且我的数据分布在多台机器上。映射如何减少获取数据,以及在何处执行排序查询

Map-Reduce可用于实现分布式的“订购方式”

。。。Yahoo的Hadoop集群之一在209中对1 TB的数据进行了排序 秒。。。排序使用了1800张地图和1800张地图

这可以通过将顺序键映射到范围(通过其值)来实现


然而,Hive正在用一个减速机实现“Order By”

。。。为了对所有结果进行总排序,必须有一个 用于对最终输出进行排序的减速机。如果输出中的行数 太大,单个减速器可能需要很长时间才能安装 完成


Map-Reduce可用于实现分布式的“Order-By”

。。。Yahoo的Hadoop集群之一在209中对1 TB的数据进行了排序 秒。。。排序使用了1800张地图和1800张地图

这可以通过将顺序键映射到范围(通过其值)来实现


然而,Hive正在用一个减速机实现“Order By”

。。。为了对所有结果进行总排序,必须有一个 用于对最终输出进行排序的减速机。如果输出中的行数 太大,单个减速器可能需要很长时间才能安装 完成


它是如何决定执行查询需要多少map&reduce任务的?以及在何处对最终输出进行排序(在哪个内存中)?根据数据源大小映射(但某些数据格式限制为1个映射)。Reducer-1和Reducer在哪里对最终输出进行排序(在哪个内存中)?我没有像你说的那样得到问题:“为了对所有结果进行总排序,必须有一个Reducer对最终输出进行排序”,所以我的问题是这一个Reducer在哪里对最终输出进行排序?在哪个数据节点中执行最终“订购依据”?还是像在每个节点中执行“ORDER BY”之后,总输出(1TB数据)被收集到主节点中,然后在主节点中执行最终的“ORDER BY”子句?它如何决定执行查询需要多少map&REDUCT任务?以及在何处对最终输出进行排序(在哪个内存中)?根据数据源大小映射(但某些数据格式限制为1个映射)。Reducer-1和Reducer在哪里对最终输出进行排序(在哪个内存中)?我没有像你说的那样得到问题:“为了对所有结果进行总排序,必须有一个Reducer对最终输出进行排序”,所以我的问题是这一个Reducer在哪里对最终输出进行排序?在哪个数据节点中执行最终“订购依据”?还是像在每个节点中执行“ORDER BY”之后,总输出(1TB数据)在主节点中收集,然后在主节点中执行最终的“ORDER BY”子句?