Hadoop清管器计数_Hadoop_Mapreduce_Apache Pig - Fatal编程技术网

Hadoop清管器计数

hadoop mapreduce apache-pig

Hadoop清管器计数,hadoop,mapreduce,apache-pig,Hadoop,Mapreduce,Apache Pig,我现在正在学习如何使用Hadoop Pig 如果我有这样一个输入文件： a,b,c,true s,c,v,false a,s,b,true ... 最后一个字段是我需要计算的字段。。。所以我想知道这个文件中有多少“真”和“假” 我尝试： records = LOAD 'test/input.csv' USING PigStorage(','); boolean = foreach records generate $3; groups = group boolean all; 现在我被卡住了

我现在正在学习如何使用Hadoop Pig

如果我有这样一个输入文件：

a,b,c,true
s,c,v,false
a,s,b,true
...

最后一个字段是我需要计算的字段。。。所以我想知道这个文件中有多少“真”和“假”

我尝试：

records = LOAD 'test/input.csv' USING PigStorage(',');
boolean = foreach records generate $3;
groups = group boolean all;

现在我被卡住了。我想使用：

count = foreach groups generate count('true');"

要获得“true”的数字，但我总是会得到错误：

2013-08-07 16:32:36677[main]错误org.apache.pig.tools.grunt.grunt -错误1070:无法使用导入解析计数：[，org.apache.pig.builtin.，org.apache.pig.impl.builtin.] 日志文件中的详细信息：/etc/pig/pig1375911119028.log

有人能告诉我问题出在哪里吗

两件事。首先，

count

实际上应该是。在pig中，所有内置函数都应使用所有CAP调用

其次，

COUNT

统计一个包中的值的数量，而不是一个值。因此，您应该按真/假分组，然后按计数进行分组：

boolean = FOREACH records GENERATE $3 AS trueORfalse ;
groups = GROUP boolean BY trueORfalse ;
counts = FOREACH groups GENERATE group AS trueORfalse, COUNT(boolean) ;

因此，现在

计数的转储的输出将类似于：
(true, 2)
(false, 1)

如果您希望在其各自的关系中使用true和false计数，则可以使用计数的输出。但是，最好是布尔值
，然后分别进行两次计数：
boolean = FOREACH records GENERATE $3 AS trueORfalse ;
SPLIT boolean INTO alltrue IF trueORfalse == 'true', 
                   allfalse IF trueORfalse == 'false' ;

tcount = FOREACH (GROUP alltrue ALL) GENERATE COUNT(alltrue) ;
fcount = FOREACH (GROUP allfalse ALL) GENERATE COUNT(allfalse) ;




[mapreduce]相关文章推荐



                                                        
为什么我修改过的（真实世界的haskell）Mapreduce实现失败了；“打开的文件太多”；
mapreducehaskell 
Mapreduce 分割日志文件的最佳方法
mapreducehive 
Mapreduce Couchdb reduce函数——仅返回满足特定条件的和（值）
mapreducecouchdb 
Mapreduce 如何使用FOREACH。。生成语句以使用PIG转换我的数据？
mapreduceapache-pig 
Mapreduce CouchDB无法还原函数
mapreducecouchdb 
                                       





随机文章推荐



                                                        
使用cURL以编程方式从站点的成员区域下载
curl 
使用CURL时如何禁用加载图像？
curl 
有人能解释一下curl选项CURLOPT_WRITEFUNCTION使用的write函数的参数吗
curl 
如何使用CURL/CygWin将文件从本地Windows计算机发送到服务器？
curlcygwincouchdb 
Curl 来自脚本的Wget数据
curl 
如何让CLI curl在debian lenny上运行
curldebian 
Curl PUT方法不发布数据ShopifAPI
curlshopify 
用于添加角色的WSO2 AM curl命令
curlsoapwso2 
cURL Post请求：获取响应和状态代码
curl 
Curl 指定使用Guzzle PHP的请求命令
curl 
如何在Centos 5.11中升级curl？
curl 
Curl 与实例create一起传递的元数据覆盖在字符串“create”上；X帧选项：SAMEORIGINlock GMT“；
curlgoogle-cloud-platform 
Curl 运行官方领事docker形象
curldocker 
从curl使用Auth0调用Laravel 5.3 API时使用未经授权的用户
curllaravel-5 
Curl 如何在Django rest框架上请求.method==PUT、POST
curldjango-modelsdjango-rest-framework 
Curl iCloud日历请求
curl 
Curl coinbase api返回{quot；errors"；：[{quot；id"；：“无效的”令牌“，“消息”：“访问令牌无效”}]
curl 
UrlFetch相当于CURL-u“&书信电报；用户名>；：&书信电报；密码>&引用；
curlgoogle-apps-script 
通过cURL发布zip文件会得到二进制输出
curlpost 
使用mingw64编译静态cURL时对difftime64的未定义引用
curl


                                        

                                        
                                        


                                                
                                                        [hadoop]相关推荐
                                                        
Hadoop和dumbo新手，如何正确排序这些操作？
									Hadoop
							 									Mapreduce
							 
对同时将两个不同的数据集读入Hadoop有什么建议吗？
									Hadoop
							 
Mkdirs无法创建hadoop.tmp.dir
									Hadoop
							 
与Hadoop'相关的查询；s映射还原
脚本：
									Hadoop
							 									Mapreduce
							 
Hadoop 如何使用bzip2 inputformat增加MapReduce的映射任务
									Hadoop
							 									Mapreduce
							 
在旧的Hadoop API中，Mapper.cleanup（）方法的等价物是什么？
									Hadoop
							 									Mapreduce
							 
使用Hadoop DistributedCache和归档
									Hadoop
							 									Mapreduce
							 
Hadoop从文件配置
									Hadoop
							 
Hadoop Oozie示例在运行清管器作业时卡住
									Hadoop
							 									Apache Pig
							 
ApacheSpark，具有用于HadoopRDD的自定义InputFormat
									Hadoop
							 									Apache Spark
							 
Hadoop apachetez体系结构解释
									Hadoop
							 									Hive
							 
Hadoop 重启后HBase ZooKeeper日志仲裁。学习者：获取zxid 0x10000001预期0x1
									Hadoop
							 									Hbase
							 									Apache Zookeeper
							 
Hadoop Thread ResourceTrackerService在启动状态下失败
									Hadoop
							 
Hadoop mapreduce中的UserInputFormat类
									Hadoop
							 									Mapreduce
							 
Hadoop 失败映射任务的日志位置
									Hadoop
							 									Mapreduce
							 
Hadoop 运行配置单元操作的Oozie作业在路径名上引发错误
									Hadoop
							 									Hive
							 
Hadoop 蜂巢：联合地图&x27；无效函数'；
									Hadoop
							 									Hive
							 
Hadoop与HBase的集成
									Hadoop
							 									Hbase
							 
Hadoop 在蜂箱中连接一张桌子两次
									Hadoop
							 									Hive
							 
Hadoop 为什么；选择unix#u时间戳（'；'；）为空"；当“时，返回false”；选择unix#U时间戳（'；'；）"；返回空值？
									Hadoop
							 									Apache Spark
							 									Hive
							 
Hadoop oozie协调器未生成输出事件
									Hadoop
							 
Hadoop spark每个工人每小时的cpu和mem总配置
									Hadoop
							 									Apache Spark
							 									Pyspark
							 
Hadoop DNS不一致
									Hadoop
							 									Apache Spark
							 									Dns
							 
Hadoop 如何将mapreduce结果加载到配置单元中？
									Hadoop
							 									Hive
							 									Mapreduce
							 
Hadoop 时间戳列中的年、月和日期
									Hadoop
							 									Hive
							 
Hadoop （配置单元）插入失败：分区上的行号（）有问题
									Hadoop
							 									Hive
							 
Hadoop dfs.blocksize和BlockCapacity的值不同
									Hadoop
							 
Hadoop 我在Ubuntu20.04中安装了Hadood 3.2.1，但我遇到了一个错误
									Hadoop
							 
Hadoop作业耗时太长，停留在reduce>；还原，映射器100%还原100%
									Hadoop
							 									Mapreduce
							 
Hadoop纱线-定制容器预启动逻辑
									Hadoop
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Notifications
Sapui5
Editor
Canvas
Mdx
Scheme
Cloud Foundry
Oracle10g
Windows Store Apps
Abap
Apache Pig
Asp.net Core
Cuda
Web Applications
Apache
Powershell
Protractor
Qt
Pyspark
Gis
Pine Script
Internationalization
Soap
Reference
Dojo
Winapi
Open Source
Doxygen
Javafx
Properties
Selenium
Passwords
Import
Arrays
View
Matplotlib
Google App Engine
Database Design
Debian
Architecture
Yii2
Rdf
Cobol
Google Cloud Dataflow
Asp.net Mvc 3
R
Rest
Sonarqube
Outlook
Bash
Breeze
Networking
Binding
Spring Batch
Shiny
Nsis
Requirejs
Jsp
Ssrs 2008
Silverlight
Magento2
Mediawiki
Loopbackjs
Redux
Layout
Testing
Ionic2
Chart.js
Playframework
Latex
Project Management
Ipad
Clojure
Ecmascript 6
Windows Phone
Internet Explorer
Visual Studio 2012
Audio
Encoding
Highcharts
Modelica
Rspec
Yii
Gcc
File
Merge
Cygwin
Symfony1
Opencl
Orm
Cucumber
Nestjs
Visual Studio 2008
Graphviz
Knockout.js
If Statement
Windows Services
Transactions
Ios
C++11
Microservices
.net 4.0
Ibm Mobilefirst
Gremlin
Objective C
Swiftui
Mapbox
Dom
Dialogflow Es
Button
Dictionary
Entity Framework
Google Maps Api 3
Mongodb
Ios4
Path
Ravendb
Uml
Swagger
Ruby On Rails 4
Doctrine Orm
Vhdl
Amp Html
Bots
Python 2.7
Google Chrome Extension
Google Api
Nativescript
Blazor
Tensorflow
Netty
Google Plus
Binary
Subsonic
Jasmine
Sharepoint 2007
Activerecord
Pagination
Db2
Vaadin
Web
Replace
Moodle
Amazon S3
System Verilog
Nlp
Backbone.js
Gatsby
Antlr4
Actionscript
Bluetooth
Grep
Kernel
Statistics
Liferay
Content Management System
Ms Office
Text
Junit
Discord.js
Vmware
Jsf 2
Ubuntu
Mysql
Sqlite
Gulp
Vim
Cassandra
Tcl
Cordova
Sqlalchemy
Sql Server 2008
Jaxb
Rust
Servlets
Batch File
Download
Ada
Visual Studio 2017
Routes
Signalr
Sharepoint 2010
Nosql
Cypress
Flutter
Umbraco
Rxjs
Xslt
Java 8
Twitter Bootstrap
Windows Runtime
Playframework 2.0
Virtual Machine
Jvm
Data Structures
Model View Controller
Parse Platform
Installation
Electron
Colors
Talend


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网