Hadoop 如何在mapper中缓存所有数据记录并在最后进行处理？_Hadoop_Mapreduce - Fatal编程技术网

Hadoop 如何在mapper中缓存所有数据记录并在最后进行处理？

hadoop mapreduce

Hadoop 如何在mapper中缓存所有数据记录并在最后进行处理？,hadoop,mapreduce,Hadoop,Mapreduce,我有一个MapReduce工作，其中映射者负责对数据记录进行聚类。读取数据记录时，我将其添加到列表中。如何知道何时读取了所有数据记录，我可以开始对列表进行聚类？当任务完成时，映射器界面提供了一个清理方法。您可以使用它作为钩子来触发需要对对象的列表执行的任何附加逻辑。我不得不问，为什么不使用Reducer任务来执行此处理

我有一个MapReduce工作，其中映射者负责对数据记录进行聚类。读取数据记录时，我将其添加到

列表中。如何知道何时读取了所有数据记录，我可以开始对列表进行聚类？
当任务完成时，映射器
界面提供了一个清理
方法。您可以使用它作为钩子来触发需要对对象的列表执行的任何附加逻辑。我不得不问，为什么不使用Reducer
任务来执行此处理




[mapreduce]相关文章推荐



                                                        
Mapreduce couchdb map/reduce视图：仅计算最近的项目
mapreducecouchdb 
Accumulo和MapReduce：无法找到指定范围的存储箱
mapreduce 
Mapreduce 在hdfs中复制了多少次输入拆分
mapreduce 
用于读取ORC文件的Mapreduce示例
mapreducehive 
Mapreduce 容器失败，退出代码为143
mapreduce 
Mapreduce 为什么CouchDB中的reduce函数不返回数组？
mapreducecouchdb 
                                       





随机文章推荐



                                                        
用于Windows的Perforce存储库监视器
perforce 
Perforce P4J获取目录的更改列表
perforce 
Perforce 我可以将两个目录中的文件集成到一个目录中吗？
perforce 
Perforce 变更列表的变更说明'；它在性能上
perforce 
Perforce 有没有办法从p4更改中仅提取CL编号和用户名
perforce 
Perforce 性能：如何删除p4v拒绝删除的变更列表？
perforce 
Perforce 仅获取不带文件的repo文件夹的结构
perforcedirectory 
使用Perforce Visual Client中的命令选项（如-f）
perforce 
Perforce 性能错误：%t参数"；“活动窗格中未选择任何对象”；无法运行C:\Users\User\performe\testCutsomToot.bat
perforce 
Perforce 连接到局域网上的Performce个人服务器
perforce 
Perforce 是否覆盖版本的历史记录？
perforce


                                        

                                        
                                        


                                                
                                                        [hadoop]相关推荐
                                                        
幕后的hadoop
									Hadoop
							 
Hadoop map/reduce中的静态对象
									Hadoop
							 									Mapreduce
							 
示例在hadoop 0.23.0上运行时挂起作业
									Hadoop
							 									Mapreduce
							 
Hadoop SequenceFile.Writer的sync和syncFs是什么意思？
									Hadoop
							 
何时使用Hadoop、HBase、Hive和Pig？
									Hadoop
							 									Hbase
							 									Hive
							 									Apache Pig
							 
未检测到hadoop namenode
									Hadoop
							 
hadoop集群中zookeeper的硬件推荐
									Hadoop
							 									Apache Zookeeper
							 
Hadoop oozie java.lang.RuntimeException:配置对象时出错
									Hadoop
							 
Hadoop 在猪和蜂巢中繁殖的映射器数量
									Hadoop
							 									Mapreduce
							 									Hive
							 									Apache Pig
							 
Hadoop ApacheOozie在创建mysql数据库时抛出classnotfound异常
									Hadoop
							 
Hadoop 2.4无法执行goal org.apache.maven.plugins:maven antrun plugin:1.7
									Hadoop
							 
Hadoop 停用某些节点后，无法启动特定节点管理器
									Hadoop
							 
Hadoop 更改dfs.BlockSizeA的值是否会影响现有数据
									Hadoop
							 
Hadoop 节点/hbase不在ZooKeeper中
									Hadoop
							 									Hbase
							 
为什么不能从纱线中请求超过32个芯线来运行作业？
设置：

节点数量：3
芯数：每台机器32芯
内存：每台机器410GB
Spark版本：1.2.0
Hadoop版本：2.4.0（Hortonworks）

目标：

我想运行一个包含32个以上执行器内核的Spark作业。

问题:
									Hadoop
							 									Mapreduce
							 									Apache Spark
							 
Hadoop 为配置单元查询动态设置映射和减少任务的数量
									Hadoop
							 									Hive
							 
Hadoop ApacheSpark JavaSchemaRDD是空的，即使它的输入RDD有数据
									Hadoop
							 									Apache Spark
							 
使用centos 6.4_64位错误格式化hadoop 2.5.2上的namenode
									Hadoop
							 
&引用；Hadoop最终指南“；源代码未运行
									Hadoop
							 
Amazon EMR和Hadoop MR的区别
									Hadoop
							 									Mapreduce
							 
Hadoop 无法阻止本地作业运行程序运行
									Hadoop
							 									Hbase
							 
在不使用distcp命令的情况下将配置单元数据从一个Hadoop集群移动到另一个Hadoop集群？
									Hadoop
							 
Hadoop Spark RDD沿袭与存储
									Hadoop
							 									Apache Spark
							 
Hadoop 配置单元：为列选择上一个具有最小值的第n行
									Hadoop
							 									Hive
							 
Hadoop 将数据帧存储到spark中的配置单元分区表
									Hadoop
							 									Hive
							 
Hadoop 使用Tez执行引擎将文件系统添加到配置单元
									Hadoop
							 									Hive
							 
Hadoop 配置单元SQL，在滑动10分钟窗口中查找最大计数
									Hadoop
							 									Hive
							 
Hadoop 为什么orc文件比蜂巢中的拼花文件占用更多空间？
									Hadoop
							 									Hive
							 
Hadoop 需要配置单元中有关日期函数的帮助吗
									Hadoop
							 									Hive
							 
Hadoop 如何使用Nifi表达式语言将日期更改为文件夹路径？
									Hadoop
							 									Apache Nifi
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Caching
Websocket
Sqlalchemy
Aframe
Websphere
Sockets
Primefaces
Fullcalendar
Jsf
C
Deployment
Visual Studio 2015
Ftp
Google Chrome Devtools
Ssrs 2008
Firebase
Mapreduce
Project Management
Oracle
Requirejs
Visual Studio Code
Dojo
Yii2
Floating Point
Azure Active Directory
Python 3.x
Cloud Foundry
Github
Nosql
Mapping
Jakarta Ee
Iis
Animation
Https
Ip
Breeze
Netlogo
Unit Testing
Firefox Addon
Javafx
Windows Services
Ms Word
Material Ui
Graphql
Wxpython
Frameworks
Antlr
Spring Integration
Aem
Cobol
Xcode
Udp
Scikit Learn
Discord.js
Android
Object
Windows Phone 7
Chef Infra
Timer
Mvvm
Db2
Antlr4
Graphics
Zend Framework2
Racket
Youtube Api
Transactions
Compilation
Data Structures
Salesforce
Web
Spotify
Jboss
Visual C++
Jquery Mobile
Internet Explorer
Firefox
Kibana
Character Encoding
Cluster Computing
Cocoa Touch
Struct
Jquery Ui
Unicode
Winforms
Cypress
Internet Explorer 8
Google Calendar Api
Exception Handling
Ios6
Redirect
Gradle
Julia
Sails.js
Php
Parse Platform
Ffmpeg
Flask
Wordpress
File Upload
Sql Server 2008 R2
Join
Pycharm
Drupal 7
Latex
Cuda
Yocto
Dialogflow Es
Sql
Google Plus
Functional Programming
Active Directory
Sequelize.js
Smalltalk
Silverstripe
Ionic2
Swift3
Smtp
Qml
Debian
Osgi
Grid
Twitter
Instagram
Magento2
Shell
List
Android Studio
Telerik
Ms Office
Data Binding
Url
Module
Hazelcast
Django
Keyboard
Sap
Redis
For Loop
Resharper
Xamarin
Discord
Linux Kernel
Asp.net Mvc 5
Pdf
Text
Gridview
Sonarqube
Socket.io
Google Compute Engine
Grails
Docker Compose
Operating System
Listview
Protractor
Fluent Nhibernate
Time Complexity
Sharepoint 2010
Events
Azure Sql Database
C++11
Applescript
.net
Error Handling
Xna
Database
Glassfish
Unity3d
Sharepoint
Google Cloud Storage
Next.js
Actionscript
Ethereum
Sed
Amazon Dynamodb
Permissions
Sublimetext2
Matrix
Azure Cosmosdb
Exception
Process
Security
Cakephp
Zurb Foundation
Nunit
Dynamics Crm
Ssh
Email
Spring
Ssas
Ember.js
Akka
Nestjs
Pyspark
Grep
Time
Teradata
Xaml
Cocos2d Iphone
Pandas
Recursion


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网