Hadoop 使用pig高效合并2个已排序文件_Hadoop_Apache Pig - Fatal编程技术网

Hadoop 使用pig高效合并2个已排序文件

hadoop apache-pig

Hadoop 使用pig高效合并2个已排序文件,hadoop,apache-pig,Hadoop,Apache Pig,我的HDFS 2数据集上有完全相同的结构，都是按相同的键排序的。我想把它们合并成一个按该键排序的大数据集现在我知道pig有一个有效的合并连接(http://wiki.apache.org/pig/PigMergeJoin)它也有一个有效的合并排序吗？也许一个智能加载程序（）可以使用“merge”和一个生成组从每个映射的索引和一个COGROUP创建正确的拆分，但仍然保持顺序如果不是新的联合使用“merge”在这种情况下将是完美的合并联接的输出将是单个排序列表。因此，您不需要单独排序。您所说的

我的HDFS 2数据集上有完全相同的结构，都是按相同的键排序的。我想把它们合并成一个按该键排序的大数据集

现在我知道pig有一个有效的合并连接(http://wiki.apache.org/pig/PigMergeJoin)它也有一个有效的合并排序吗？

也许一个智能加载程序（）可以使用“merge”和一个

生成组

从每个映射的索引和一个

COGROUP创建正确的拆分，但仍然保持顺序
如果不是新的联合使用“merge”
在这种情况下将是完美的
 合并联接的输出将是单个排序列表。因此，您不需要单独排序。
您所说的“高效合并排序”是什么意思？你熟悉MapReduce还是只使用pig？托马斯：是的，我的意思是“只做地图边的工作”，但从你评论的语气中，我感觉到我遗漏了一些基本的东西：）……啊：）只做地图边永远不会被排序；）托马斯：哎呀，伙计。。所以你的意思是，无论数据集是否预先排序，都需要相同的时间？是的。数据集将在reduce阶段前面的排序之前被洗牌。




[apache pig]相关文章推荐



                                                        
Apache pig hadoop pig脚本-与条件联合
apache-pig 
Apache pig 计算pig查询中的百分比

我有一个有两列的表（col1:string，col2:boolean）
让我们说col1=“aaa”
对于col1=“aaa”，有许多的真/假值
可乐
我想计算col1（aaa）的真值百分比
apache-pig 
Apache pig pig中多关系连接中前缀的避免
apache-pig 
Apache pig Accumulo清管器错误-AccumuloInputFormat的连接器信息只能在每个作业中设置一次
apache-pig 
Apache pig 猪如果还有语义
apache-pig 
Apache pig ApachePig:处理双打时出错2103
apache-pig 
Apache pig 使用ApachePig拆分JSON文件
apache-pig 
Apache pig 在嵌套的FOREACH语句中重用清管器组
apache-pig 
Apache pig 猪字新纪录
apache-pig 
Apache pig 色调清管器编辑器中的线尾锚点$抛出错误
apache-pig 
Elasticsearch 如何获得PIG中一组字段的不同值？
apache-pig 
Apache pig 除非我做了条件测试，否则为什么要得到I 0值
apache-pig 
Apache pig 传递带有空白的参数
apache-pig 
                                       





随机文章推荐



                                                        
Pandas 用python计算气候学
pandas 
Pandas 从hdf5应用功能中选择（例如平均值）
pandas 
Pandas 跨多索引的二进制操作广播
pandas 
Pandas 为什么dask.dataframe compute（）结果在特定情况下给出IndexError？如何找到异步错误的原因？
pandasdask 
Pandas 要将具有新列的sql添加到现有表中，是否自动添加新列？
pandassqlalchemy 
Pandas 按文件名合并数据帧
pandasmerge 
Pandas 是否有一个熊猫数据帧实现可以从HDF5文件中的表延迟加载记录？
pandasdataframe 
Pandas 神经网络数据形状正确的三维张量
pandasdataframeneural-networkkerasjupyter-notebook 
Pandas 如何在没有嵌套for循环的情况下遍历数据帧？
pandas 
Pandas 数据帧使用上一行值填充下一行
pandaspython-2.7dataframe 
Pandas 熊猫多指数计数
pandas 
Pandas 从包含在列表中的字符串中提取数据
pandaslist 
Pandas 是否有可能通过变换滚动平均值来进行分组？
pandas 
Pandas 将CSV列数据提取到单个Numpy数组
pandasnumpy 
Pandas 基于python dataframe中的日期和状态列创建其他日期、时间和时区列
pandasdatedataframe 
Pandas 我应该如何在eval/query函数中对列进行签名或检查isnull（）？
pandas 
Pandas 包含一个键的多个值的pd.DataFrame的绘图子集
pandasplot 
Pandas 熊猫数据帧和系列-IB TWS历史数据
pandasapi 
Pandas 删除第一个或最后一个字符，使列中的值以数字开头
pandas 
Pandas在BQ表中组合多个列以生成FB转换api的有效负载
pandasdataframefacebook-graph-apigoogle-bigquery


                                        

                                        
                                        


                                                
                                                        [hadoop]相关推荐
                                                        
如何使用hadoop实现自连接/跨产品？
									Hadoop
							 									Mapreduce
							 
如何在新的Hadoop API中设置自定义输出提交器
									Hadoop
							 									Mapreduce
							 
Hadoop连接被拒绝
									Hadoop
							 
Hadoop只读默认配置文件core-default.xml是否在启动时读取？
									Hadoop
							 
HBase和ZooKeeper在Hadoop中的角色？
									Hadoop
							 
Hadoop 无法执行映射/减少作业
									Hadoop
							 									Mapreduce
							 
Hadoop 无法启动配置单元Web界面
									Hadoop
							 									Hive
							 
MAC伪节点上的Hadoop:提供了nodename或servname，或未知
									Hadoop
							 
Hadoop无法启动NodeManager
									Hadoop
							 
Hadoop Apache Pig不必要地重新运行map reduce作业
									Hadoop
							 									Apache Pig
							 
Hadoop 解释；每个分区中可以有许多键（及其相关值），但任何给定键的记录都在一个分区中；
									Hadoop
							 									Map
							 
Hadoop-ERROR security.UserGroupInformation:PriviledEdActionException as:Hadoop（auth:SIMPLE）
									Hadoop
							 									Mapreduce
							 
Hadoop2.2-datanode不'；我不能开车
									Hadoop
							 
Hadoop 使用HBasStorage功能存储后，无法通过pig获取hbase中的更新数据？
									Hadoop
							 									Hbase
							 									Apache Pig
							 
Hadoop Amazon：使用带有pig interactive的elastic mapreduce时，将凭据设置为S3
									Hadoop
							 									Amazon S3
							 									Apache Pig
							 
Hadoop 猪与Hbase的整合
									Hadoop
							 									Hbase
							 									Apache Pig
							 
Hadoop 输入拆分是否复制到JobTracker文件系统？
									Hadoop
							 									Mapreduce
							 
Hadoop fuse在装载后不返回此类文件或目录错误
									Hadoop
							 
Hadoop 2.6作业处理程序URL
									Hadoop
							 									Mapreduce
							 
Hadoop 通过teradata连接时发生Sqoop错误
									Hadoop
							 									Teradata
							 
Hadoop 如何将数据复制到另一个表而不覆盖现有列
									Hadoop
							 									Hive
							 									Amazon Dynamodb
							 
Hadoop 使用NFS网关装载在HDFS目录中查看1000多个文件
									Hadoop
							 
Hadoop 拼花地板和数据复制
									Hadoop
							 
Hadoop 读取多个文件并压缩为单个文件
									Hadoop
							 
Hadoop，套接字超时错误
									Hadoop
							 
Hadoop 如何从配置单元中的一个选择导出多个文件
									Hadoop
							 									Hive
							 
Hadoop 配置单元暂停和恢复任务
我的问题
									Hadoop
							 									Hive
							 
Hadoop FsImage中DSQUOTA和NSQUOTA列的含义是什么？
									Hadoop
							 
Hadoop coordinator.xml中的输入事件标记做什么？
									Hadoop
							 
以前很好的单节点Hadoop集群抛出'；无法分配内存java.lang.OutOFMemoryError“；突然
									Hadoop
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Windows Phone
Instagram
Adobe
Ms Office
Zsh
Google Drive Api
Mapping
Doxygen
View
Dart
Pine Script
Twig
Plugins
Linux
Sharepoint 2007
Ios4
Phantomjs
Chef Infra
Machine Learning
Network Programming
Identityserver4
Ssas
Extjs4
Fullcalendar
Data Structures
Cocoa
Azure Devops
Vmware
Calendar
Windbg
Geolocation
Selenium
Dotnetnuke
Laravel 5
Artificial Intelligence
Ruby On Rails 4
Office365
Sql Server 2012
Postman
Azure Service Fabric
Windows Phone 8.1
Build
Concurrency
Silverlight 4.0
Yaml
Aws Lambda
Google Chrome
Content Management System
Authentication
Office Js
Signalr
Markdown
Couchbase
Antlr4
Terminal
Events
Ffmpeg
Asp.net Mvc
Ssrs 2008
Model View Controller
Dialogflow Es
Image Processing
Mediawiki
Sapui5
Libgdx
Google Chrome Extension
Octave
Npm
Automated Tests
Nlp
Magento
Post
Scikit Learn
Sencha Touch 2
Tabs
Docker
Jquery Mobile
Odata
Bootstrap 4
Oracle
Web Crawler
Jsf
Common Lisp
Amazon S3
Rss
Fortran
Mapbox
Mobile
Google Visualization
Navigation
Jms
Mpi
Mips
Three.js
Xml
Discord
Session
Phpmyadmin
Android Studio
Requirejs
Autohotkey
Data Binding
Datatables
Css
Modelica
Xslt
Botframework
Csv
Rxjs
Map
Android Layout
Svg
Inheritance
Spring Security
Jetty
Yii2
Msbuild
Linux Kernel
Javafx 2
Struts2
Enums
Migration
Wcf
Compression
Verilog
Encoding
Hazelcast
Azure Ad B2c
Computer Vision
Latex
Parameters
Nunit
Http
Hibernate
Deep Learning
Jekyll
Html5 Canvas
Listview
Playframework
Layout
Spring Batch
Zend Framework2
D3.js
Iphone
Charts
Sip
Iis 7
Sprite Kit
F#
Programming Languages
Imagemagick
Reference
Qml
Shell
Aem
Redux
Sublimetext2
For Loop
Unix
Arm
Elixir
Qt4
Caching
Ssh
Asp.net Core
Dask
Gruntjs
Command Line
Swagger
Keyboard
Kernel
Google Cloud Storage
Ruby On Rails 3.2
Sms
C++11
Timer
Active Directory
Excel Formula
Elm
Ruby On Rails 3.1
Haskell
Mercurial
Internet Explorer
Hive
Junit
Arduino
Artifactory
Ruby On Rails
Asp.net Mvc 5
Printing
Orchardcms
Debugging
Eclipse
Oauth
Cuda
Snowflake Cloud Data Platform
Processing
Google Colaboratory
Tsql
Performance
Cakephp


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网