可以减少hadoop中接受压缩数据的任务_Hadoop_Mapreduce_Hadoop Partitioning - Fatal编程技术网

可以减少hadoop中接受压缩数据的任务

hadoop mapreduce

可以减少hadoop中接受压缩数据的任务,hadoop,mapreduce,hadoop-partitioning,Hadoop,Mapreduce,Hadoop Partitioning,我们看到map可以接受和输出压缩和未压缩的数据。我正在接受cloudera培训，老师提到reduce任务输入必须是o键值形式，因此无法处理压缩数据是这样吗？如果这是正确的，那么在从shuffler/partitioner传输bug数据以减少任务时，如何处理网络延迟谢谢您的帮助。如果映射器可以输出压缩数据，那么还原器当然可以接受压缩数据。这对两者都是透明的，因此输出会自动压缩和解压缩我想他/她一定是在说Hadoop必须为您解压缩压缩输入，因为Reducer不希望压缩数据必须自行解压缩 Red

我们看到map可以接受和输出压缩和未压缩的数据。我正在接受cloudera培训，老师提到reduce任务输入必须是o键值形式，因此无法处理压缩数据

是这样吗？如果这是正确的，那么在从shuffler/partitioner传输bug数据以减少任务时，如何处理网络延迟

谢谢您的帮助。

如果

映射器可以输出压缩数据，那么还原器当然可以接受压缩数据。这对两者都是透明的，因此输出会自动压缩和解压缩
我想他/她一定是在说Hadoop必须为您解压缩压缩输入，因为Reducer
不希望压缩数据必须自行解压缩
Reducer
s还可以输出压缩数据，这是单独控制的。您可以控制编解码器。您还可以将压缩数据作为输入自动读取到映射器

不过也有一些问题：例如，gzip
压缩文件不能被Mapper
分割，这不利于并行性。但是在某些情况下，bzip压缩文件可以拆分。是的，它可以。
只需在驱动程序类的主方法中添加以下内容：
  Configuration conf = new Configuration();
  conf.setBoolean("mapred.compress.map.output", true);
  conf.setClass("mapred.map.output.compression.codec", SnappyCodec.class, CompressionCodec.class);

谢谢你的留言，肖恩。reducer的输入在实际看到之前如何解压缩？有什么想法吗？




[mapreduce]相关文章推荐



                                                        
Mapreduce 如何找出某个特定项目在riak集群中的存储位置？
mapreduce 
Mapreduce Hive中的字计数程序
mapreducehive 
Mapreduce 你能把三元运算符和STORE in pig一起使用吗
mapreduceapache-pig 
Mapreduce 如何在执行某些操作后将数据从配置单元插入外部表？
mapreducehive 
Mapreduce 缩放Oozie Map Reduce作业：拆分成更小的作业是否会减少总体运行时和内存使用？
mapreduce 
                                       





随机文章推荐



                                                        
log4net将不会从app.config读取
log4net 
RollingFileAppender的log4net最低配置？
log4net 
log4net.Config不'；我没有XmlConfigurator
log4net 
如何将所有log4net输出发送到Serilog
log4net 
Log4Net日志到应用程序洞察和文件
log4net 
log4net每个连接都有appender
log4net


                                        

                                        
                                        


                                                
                                                        [hadoop]相关推荐
                                                        
Hadoop:不要重新计划发生故障的减速器
									Hadoop
							 
期待Hadoop的全面回顾
									Hadoop
							 									Cloud
							 									Mapreduce
							 
Hadoop HDFS在存储数据时是否加密或压缩数据？
									Hadoop
							 
Hadoop shuffle使用哪种协议？
									Hadoop
							 									Mapreduce
							 
将目录而不是文件传递到hadoop流媒体？
									Hadoop
							 
Hadoop EC2上的Cloudera CDH
									Hadoop
							 									Amazon Ec2
							 
Hadoop作业成功，但出现错误
									Hadoop
							 
Hadoop MapReduce冻结在99%
									Hadoop
							 									Mapreduce
							 
java.io.IOException:java.lang.ClassCastException:org.apache.hadoop.hbase.client.Result无法强制转换为org.apache.hadoop.io.Writable
									Hadoop
							 									Hive
							 									Hbase
							 
Hadoop hbase未在伪分布式模式下运行
									Hadoop
							 									Hbase
							 
Hadoop 使用HDFS而不是spark.local.dir
									Hadoop
							 									Mapreduce
							 									Apache Spark
							 
Hadoop 结合AWS EMR输出
									Hadoop
							 									Amazon Web Services
							 									Amazon S3
							 
Hadoop 如何提高hbase中的扫描性能？
									Hadoop
							 									Hbase
							 
Hadoop输入格式-用法
									Hadoop
							 
Hadoop 配置单元日期格式在impala中不支持
									Hadoop
							 									Hive
							 
在hadoop中更改目录的复制因子
									Hadoop
							 									Mapreduce
							 
Hadoop 配置单元索引映射减少内存错误
									Hadoop
							 									Hive
							 
sparksql(hive@spark及hive@hadoop)无一例外地死去
									Hadoop
							 									Apache Spark
							 									Hive
							 
Hadoop 分区程序工作不正常
									Hadoop
							 									Mapreduce
							 
Hadoop 从远程HDFS检索文件
									Hadoop
							 
hadoop数据节点使用SIGTERM 15持续关闭
									Hadoop
							 
Hadoop 要使用Cloudera Hbase，需要任何许可证吗？
									Hadoop
							 									Hbase
							 
WARN util.NativeCodeLoader:无法为您的平台加载本机hadoop库。。。在适用的mac上使用内置java类
									Hadoop
							 
Hadoop中可空写密钥类型的Mapreduce自定义分区
									Hadoop
							 									Mapreduce
							 
Hadoop Impala查询结果中更改的数值
									Hadoop
							 
Hadoop 配置单元从末尾删除逗号
									Hadoop
							 									Hive
							 
通过云主机安装Ubuntu，用于Hadoop环境设置
									Hadoop
							 									Virtual Machine
							 
Hadoop 运行脚本时在配置单元中获取错误
									Hadoop
							 									Hive
							 
如何在一个集群中运行hadoop流作业并将输出写入另一个集群？
									Hadoop
							 
Hadoop Knox重定向到Ambari UI问题
									Hadoop
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Django
Windows Mobile
Ssh
Debian
Oracle11g
D
Eclipse Plugin
Ldap
Html5 Canvas
Macros
Serial Port
Smalltalk
Iframe
Sencha Touch
Ios7
Vb6
Mpi
Python 2.7
Cron
Material Ui
Elixir
Oracle10g
Cassandra
Xml
Virtual Machine
Ckeditor
Security
Indexing
Rust
Puppet
Server
Visual Studio 2013
Exception
Reactjs
Terminal
Cloud
Google Maps Api 3
Cucumber
Eclipse
Tinymce
Xaml
Wicket
Datetime
Websocket
Dependency Injection
Tabs
Editor
Nlp
Charts
Dll
Kernel
Node.js
Nest
Shell
Module
Sql Server 2008 R2
Angularjs
Blazor
Jenkins
Rss
Linq
Firebase
Dojo
Class
Filesystems
Nginx
Kentico
Tridion
Ansible
Llvm
Common Lisp
Compiler Construction
Swiftui
Plot
Antlr
Android Layout
Yii2
Redux
Solr
Neo4j
Sql Server 2008
Netlogo
Ruby
Kdb
Flutter
Csv
Wxpython
Pascal
Bison
Io
Apache Nifi
Inno Setup
Json
Openlayers
Google Plus
Uiview
Jquery Ui
Glassfish
Jms
Mediawiki
Mysql
Replace
Drools
Speech Recognition
Shiny
Webstorm
Grails
Networking
Asp.net Web Api
Jaxb
Math
Memory Leaks
Virtualbox
Terraform
Fluent Nhibernate
Windows Phone 8.1
Statistics
Sap
Javafx
Clearcase
Datatables
Flask
Content Management System
Drupal
Vaadin
Coq
Notepad++
Leaflet
Amp Html
Time
Swift2
Visual Studio 2008
Grid
Heroku
Google Cloud Firestore
F#
.net
Apache Pig
Dialogflow Es
Silverlight 4.0
Dependencies
Reference
Osgi
Excel
Architecture
Vba
Variables
Assembly
Asp.net Mvc
Hibernate
Smtp
Fonts
Windows 10
Graph
Azure Devops
Sitecore
Socket.io
Parameters
Object
Animation
Sas
Xamarin.ios
Blackberry
Unit Testing
Knockout.js
Extjs
Batch File
Serialization
Apache Camel
Ssrs 2008
Binary
Compiler Errors
Libgdx
Testing
Linkedin
Hbase
Phpstorm
Unity3d
Sharepoint 2007
Continuous Integration
Actions On Google
Udp
Jwt
Apache Flink
Ms Office
Graphql
Sharepoint 2013
Sublimetext2
Google Drive Api
Ibm Mobilefirst
Database Design
Jar
Cluster Computing
Gcc
Gatsby
Windows Phone 8
Jpa
Mapping
Lotus Notes
Linker
Youtube


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网