Hadoop洗牌问题_Hadoop_Shuffle - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop洗牌问题_Hadoop_Shuffle - Fatal编程技术网

Hadoop洗牌问题

hadoop

Hadoop洗牌问题,hadoop,shuffle,Hadoop,Shuffle,我刚刚学习了这本书。我对最重要的过程有几个问题：洗牌排序、分区和合并的时间顺序映射器的输出可能是几个还原器的输入。从书中我们知道，映射器将首先将其输出写入其内存缓冲区。在将缓冲区溢出到磁盘之前，将进行排序和分区。我想及时了解它们的顺序。我的推断是：在结果溢出到dist之前，执行分区以确定输出属于哪个减缩器。然后，对于每个分区，分别执行排序方法（我知道，它是快速排序）。当缓冲区已满或达到阈值时，则溢出到磁盘每个溢出文件和合并文件属于每个减速器还是多减速器同样，根据这本书，当溢出的文件太多时

我刚刚学习了这本书。我对最重要的过程有几个问题：洗牌

排序、分区和合并的时间顺序
映射器的输出可能是几个还原器的输入。从书中我们知道，映射器将首先将其输出写入其内存缓冲区。在将缓冲区溢出到磁盘之前，将进行排序和分区。我想及时了解它们的顺序。我的推断是：在结果溢出到dist之前，执行分区以确定输出属于哪个减缩器。然后，对于每个分区，分别执行排序方法（我知道，它是快速排序）。当缓冲区已满或达到阈值时，则溢出到磁盘

每个溢出文件和合并文件属于每个减速器还是多减速器
同样，根据这本书，当溢出的文件太多时，会发生合并操作。这又让我困惑了
2.1每个溢出文件是否属于每个缩减器，或者它们只是内存缓冲区的一个简单转储文件，属于多个缩减器
2.2.合并溢出文件后，合并文件将包含多个减速器的输入数据？那么，当涉及到reducer的复制阶段时，reducer如何从这个合并文件中获取实际属于它的部分呢
2.3每个Mapper任务将生成一个合并文件，而不是每个taskTracker，对吗

[django]相关文章推荐

Django 具有复合键的模型之间的关系 django

Django 是否有方法覆盖模板中的表单值？ django

下一个Ubuntu14.04LTS版本将是什么Django版本？ django ubuntu

Django QuerySet最新和独特的 django django-models

django admin中基于选择的表单 django

Django中的多列分组 django

在Django中迁移数据库 django python-3.x

使用apache2在mod_wsgi上运行django python 3.4 django apache python-3.x

基于两级外键关系的django过滤器 django filter

Django，从不同的应用程序查看模型 django import

Django dateutil parse正在将日期更改为今天'；日期 django

Django动态模型，无法在管理中访问 django django-models

django使用nginx提供静态文件 django nginx

Django多对多，在管理中显示 django

在Django Admin中保存对模型值的更改时出现键值错误 django django-models

Django 在网站国际化中编译消息时如何自定义文件夹名称 django internationalization

如何将特定的django模型字段保存为加密到数据库？ django python-3.x

将django与firestore、非关系数据库一起使用 django python-3.x google-cloud-firestore

&引用；“邮筒华丽API”；Digital Ocean上docker中Django Anymail出错 django docker

Django 如何对同一页面中的多个查询集进行分页和排序？ django

随机文章推荐

Python 2.7 如何使用pycollada在模型上实现纹理？ python-2.7

Python 2.7 N users=session.query（User）.all（）文件“/home/pavel/.virtualenvs/common/local/lib/python2.7/site packages/sqlalchemy/orm/query.py”，第2292行，共返回列表（自我）文件“/home/pavel/.virtualenvs/common/local/lib/python2.7/site packages/sqlalchemy/orm/loading.py”，第65行，在实例中 fet python-2.7 sqlalchemy

Python 2.7 如何在kivy中从一个类移动到另一个类 python-2.7

Python 2.7 带有Tkinter和matplotlib的Python 2.7 Py2exe python-2.7 matplotlib tkinter

Python 2.7 Selenium Python配置Jenkins以运行构建。我的构建失败了 python-2.7 selenium jenkins selenium-webdriver

Python 2.7 如何将弱引用更改为强引用？ python-2.7

Python 2.7 Tkinter通过ssh延迟复制命令（Paramiko） python-2.7 tkinter

Python 2.7 如何找到嵌套元组的维度？ python-2.7 numpy

Python 2.7 如何在Ubuntu上安装Graphlab Create？ python-2.7 ubuntu proxy terminal

Python 2.7 Python：复制行（选项卡） python-2.7

Python 2.7 ImportError:没有名为eventlet的模块 python-2.7

Python 2.7 基于用户输入创建计数器 python-2.7

Python 2.7 我的痒蜘蛛坏了 python-2.7

Python 2.7 删除python中的常用词 python-2.7

Python 2.7 为什么python为字符串中的相同字符显示相同的索引值？ python-2.7

Python 2.7 Python netCDF4.date2num函数中的随机行为 python-2.7

Python 2.7 python在读取文件的行内容时语法无效 python-2.7 file

Python 2.7 当我对一个图像设置阈值时，我得到一个完全黑色的图像 python-2.7 opencv

Python 2.7 python 2不识别“；“新线”；对于文件流 python-2.7

Python 2.7 改进曲线拟合测井曲线 python-2.7

[hadoop]相关推荐

Tags

Asp.net Statistics Symfony Memory Management Django Models Orchardcms For Loop Xslt Rxjs Windows Services Csv Asterisk Forms Internet Explorer Gremlin Data Structures Post Google Plus Events Typo3 Jakarta Ee Telerik Database Design Grep Google Cloud Dataflow Sms Talend Pine Script Drools E Commerce Moodle Ocaml Cmake Cloud C++11 Material Ui Less Notifications Hibernate Programming Languages Maven Google Chrome Extension Jquery Plugins Localization Unity3d Docker Compose Signalr Paypal Sencha Touch Tensorflow Parsing Active Directory Flask Object Clang Numpy Elm Centos Laravel Rss Highcharts Http Kotlin Twitter Multithreading Internationalization Python Google Cloud Storage Vmware Phantomjs Iis 7 Colors Database Ibm Mq Fluent Nhibernate Crystal Reports Libgdx Ibm Mobilefirst Printing Gulp Aframe Scripting Directx Abap Combobox Codeigniter Sharepoint Install4j Appium Ssis Asp.net Mvc 4 String Ibm Midrange Terraform Excel Dojo Keycloak Cryptography Reflection Iphone Telegram Android Emulator Shell Scroll Arduino Oracle11g Blazor Triggers Debugging Magento Webpack Symfony1 Ignite Github Sitecore Algorithm Google App Engine Jqgrid Azure Data Factory Language Agnostic Windows Phone 7 Postgresql Image Gatsby Powershell Selenium Webdriver File Upload Dns Terminal Documentation Monitoring Graphviz Ravendb Itext Opengl Es Facebook Jaxb Apache Amazon Cloudformation Validation Sql Server 2005 Error Handling Stata Memory Leaks Swift Magento2 Open Source Sed Google Cloud Platform Tsql Scala Visual Studio 2013 Tcl Filesystems Spring Gis Rdf Serial Port Pyspark Google Apps Script Ant Ffmpeg Odata Gitlab Datetime Struts2 Adobe Drop Down Menu Liferay Checkbox Exception Handling Nhibernate Opencl Machine Learning Amazon Dynamodb Nuget Openssl Polymer Ldap Interface Orientdb Windows 10 Qt Antlr4 Server Stored Procedures Swing Python 3.x Coldfusion Asp.net Mvc 2 Process Url Rewriting Requirejs Aws Lambda Ember.js Templates Haskell Boost Atom Editor Transactions Cypress

Copyright © 2024. All Rights Reserved by - Fatal编程技术网