Apache pig 用pig拉丁语计算结果行_Apache Pig - Fatal编程技术网

Apache pig 用pig拉丁语计算结果行

apache-pig

Apache pig 用pig拉丁语计算结果行,apache-pig,Apache Pig,我尝试用pig拉丁语运行简单的单词计数器，如下所示： lines = LOAD 'SOME_FILES' using PigStorage('#') as (line:chararray); word = FILTER lines BY (line matches '.*SOME_VALUE.*'); 我想计算在搜索一些\u文件时找到的一些\u值的数量，因此预期的输出应该如下所示： (SOME_VALUE,xxxx) B = FOREACH lines GENERATE FLATTEN(TO

我尝试用pig拉丁语运行简单的单词计数器，如下所示：

lines = LOAD 'SOME_FILES' using PigStorage('#') as (line:chararray);
word = FILTER lines BY (line matches '.*SOME_VALUE.*');

我想计算在搜索

一些\u文件时找到的一些\u值
的数量，因此预期的输出应该如下所示：
(SOME_VALUE,xxxx)

B = FOREACH lines GENERATE FLATTEN(TOKENIZE(line)) ;
C = GROUP B BY $0 ;
D = FOREACH C GENERATE group AS word, COUNT(B) AS count ;

其中xxxx
，是找到的某些值的总数
如何搜索多个值并按上述方式打印每一个值？
您应该做的是将每一行分割成一袋令牌，然后将其展平。然后，您可以对单词进行分组
，将每个单词的所有匹配项都拉到它自己的行中。一旦您对生成的包进行计数
，您将获得文档中所有单词的总计数
这将类似于：
(SOME_VALUE,xxxx)

B = FOREACH lines GENERATE FLATTEN(TOKENIZE(line)) ;
C = GROUP B BY $0 ;
D = FOREACH C GENERATE group AS word, COUNT(B) AS count ;

如果您不确定每个步骤都在做什么，那么可以使用description
和DUMP
来帮助可视化正在发生的事情

更新：如果要过滤结果以仅包含所需的两个字符串，可以执行以下操作：
E = FILTER D BY (word == 'foo') OR 
                (word == 'bar') OR 
                (word == 'etc') ;

-- Another way...
E = FILTER D BY (word matches 'foo|bar|etc') ;

但是，您也可以在B
和C
之间执行此操作，这样您就不必对不需要的进行计数了。
您的意思是什么？是否只希望在输出中看到特定的字符串集？




[neural network]相关文章推荐



                                                        
Neural network 为什么在softmax中使用（exp）而不是（log）？
neural-network 
Neural network 神经网络回归预测的截断
neural-network 
Neural network 可以用完整的单词来训练初始模型吗？
neural-networktensorflow 
Neural network 基于深度学习的人脸识别（暹罗体系结构）
neural-networkcomputer-visiondeep-learning 
Neural network 训练神经网络的MSE代价函数
neural-network 
Neural network 我无法在tensorflow中使用GPU，而theano工作正常
neural-networkdeep-learning 
Neural network 神经网络异或不收敛
neural-network 
Neural network 什么是NEAT（增强拓扑的神经进化）？
neural-networkartificial-intelligence 
Neural network 神经网络回归模型输出层的激活函数
neural-network 
Neural network 如何计算排名损失的梯度？
neural-networknlp 
Neural network 如何使用Encog在时间序列之前预测两个值？
neural-network 
Neural network 电子商务服务器中RAM/CPU使用检测中的警报
neural-network 
Neural network 使用有状态LSTM进行批处理的这两种方法之间有什么区别
neural-network 
Neural network 感知器，两种不同的算法
neural-network 
Neural network Don'；难道神经网络中的所有神经元都会激发/激活吗？
neural-network 
                                       





随机文章推荐



                                                        
Java me 如何在JavaME-CLDC应用程序中实现通知服务？
java-me 
Java me 从ASP网站以编程方式构建J2Me应用程序
java-me 
Java me 从HttpConnection读取的J2me midlet引发IOException
java-me 
Java me 使用MIDP1.0下载文件
java-me 
Java me J2me-波兰语——与创建和构建项目相关的问题
java-me 
Java me 我将第三方jar文件放在J2me中的sun java wireless toolkit 2.5.2中的何处？
java-me 
Java me 如何在j2me（MIDP2.0）Jar文件中动态设置服务器IP地址？
java-me 
Java me j2me与Symbian的区别
java-me 
Java me 在应用程序执行过程中解锁诺基亚N97的
java-me 
Java me 我们可以开发一个适用于所有移动设备的j2me应用程序吗
java-memobile 
Java me 在J2me中将textfield/textbox中的输入限制为仅字母数字
java-me 
Java me 如何在JavaME中创建相同的命令
java-me 
Java me LWUIT位图字体
java-me 
Java me 运行emulator时出现什么错误；java.lang.RuntimeException命令失败，symbian错误代码为-30472“；？
java-me 
Java me HttpConnection与代理服务器的连接
java-meproxy 
Java me 如何在j2me中下载后台图像？
java-me 
Java me 带有platformRequest的RecordControl可以工作吗？
java-me 
Java me 检查文件是否存在，在J2ME中下载并保存文件
java-me 
Java me Refresh Theme（）在lwuit中给出数组索引超出边界异常
java-me 
Java me 如何在退出按钮J2me上销毁应用程序
java-me


                                        

                                        
                                        


                                                
                                                        [apache pig]相关推荐
                                                        
Apache pig 在Generate语句中格式化日期
									Apache Pig
							 
Apache pig 使用pig拉丁语仅提取xml文件中的某些标记
									Apache Pig
							 
Apache pig Pig筛选器语法错误，意外符号
									Apache Pig
							 
Apache pig 将Avro转换为拼花地板格式
									Apache Pig
							 
Apache pig 将列拆分为行
									Apache Pig
							 
Apache pig 无法在pig中使用XMLLoader打开alias的迭代器：我使用的是hadoop版本2.5.0-cdh5.2.0 pig版本0.12.0-cdh5.2.0
									Apache Pig
							 
Apache pig 拆分字符串并使用最后一个值？
									Apache Pig
							 
Apache pig 如何在piggybank中使用over函数
									Apache Pig
							 
Apache pig 查找pig中每行的列总和
									Apache Pig
							 
Apache pig 一次可以提交多少个文件给一个pig作业？
									Apache Pig
							 
Apache pig 如何使用PIG中的MAX函数检索对应行的最大值？
									Apache Pig
							 
Apache pig 将数据存储到基于字段的路径中'；元组中的s值
									Apache Pig
							 
Apache pig 用猪分拣袋子
									Apache Pig
							 
Apache pig 计算'；其他'；使用Pig的前5名结果之外
									Apache Pig
							 
Apache pig Pig拉丁语脚本将csv文件中的不同列视为一列
									Apache Pig
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Zend Framework
Gdb
Syntax
Drop Down Menu
Xaml
Odoo
Download
Typescript
Mod Rewrite
Jquery Ui
Mongoose
Compiler Construction
Dll
Sharepoint
Visual Studio 2013
Winforms
Log4net
Alfresco
Session
Methods
Facebook
Wicket
Webstorm
Firefox Addon
Requirejs
Common Lisp
Path
Android Ndk
Github
Openssl
Openshift
Entity Framework Core
Swift2
Select
Material Ui
Dynamic
Doxygen
Ember.js
Vue.js
Wix
Mule
Regex
Configuration
Localization
Plsql
Chef Infra
Spring
Xpath
Ssas
Report
Nestjs
Vuejs2
Hash
Timer
Glassfish
Hibernate
Azure Data Factory
Email
Selenium Webdriver
Coq
Content Management System
Webgl
Delphi
Shopify
Akka
Ubuntu
Date
C++11
Hyperledger Fabric
Webrtc
Scala
Sql
Tcp
Iis
Actionscript 3
Orm
Codenameone
Flutter
Sapui5
Printing
Tsql
Passwords
Laravel 5
Devexpress
Search
Filter
Opengl Es
Laravel
Qml
Awk
Telegram
Stripe Payments
Macros
Google Apps Script
Struts2
Visual Studio Code
Jwt
Vbscript
Import
Joomla
Codeigniter
Mdx
Vmware
Excel Formula
Jms
Grafana
Mapreduce
Ibm Cloud
Ssl
Nsis
Asp.net
Terminal
Nunit
Extjs
Visual Studio 2008
Wso2
Jekyll
Nginx
Cocos2d Iphone
Apache Camel
Xamarin.forms
Variables
Arrays
Rss
Mongodb
Asp.net Web Api
Tinymce
Aws Lambda
Angular Material
Google Maps
Binding
Corda
Apache Spark
Google App Engine
Groovy
3d
Glsl
Sockets
Windows Phone
Gtk
Eclipse Rcp
Here Api
Emacs
Couchbase
Qt
Prometheus
Notepad++
Azure
Core Data
Sitecore
Sed
C# 4.0
Umbraco
Xml
Sparql
D
.net 4.0
Reflection
Arangodb
Autocomplete
Socket.io
Next.js
Synchronization
Facebook Graph Api
Ms Access
Amazon Dynamodb
Ibm Mq
Cryptography
Continuous Integration
Microservices
Navigation
Process
Dependency Injection
Mediawiki
If Statement
Windows Phone 8.1
Gulp
System Verilog
Webview
Antlr4
Backbone.js
Vba
Error Handling
Hadoop
Nservicebus
Woocommerce
Youtube Api
Browser
Permissions
Subsonic
Architecture
Verilog
Utf 8
Asp.net Mvc 5
Phpmyadmin
Debugging
Racket
Server
Rspec
Coffeescript
Windows Phone 7


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网