Hadoop 如果列的值是列表的一部分，则使用Pig脚本提取行_Hadoop_Apache Pig - Fatal编程技术网

Hadoop 如果列的值是列表的一部分，则使用Pig脚本提取行

hadoop apache-pig

Hadoop 如果列的值是列表的一部分，则使用Pig脚本提取行,hadoop,apache-pig,Hadoop,Apache Pig,我有一个像这样的猪脚本 a = load 'large_file' using PigStorage(',') b = filter a by $16 = '12345678' c = filter a by $16 = '456' d = union b,c store d into 'output.csv' 如果我想通过值列表筛选a。例如，当第16列的值位于大型值列表中时，我希望提取所有行用熊猫的话来说就是 df[df['col'].isin([one massive list])]

我有一个像这样的猪脚本

a = load 'large_file' using PigStorage(',')
b = filter a by $16 = '12345678'
c = filter a by $16 = '456'
d = union b,c 
store d into 'output.csv'

如果我想通过值列表筛选a。例如，当第16列的值位于大型值列表中时，我希望提取所有行

用熊猫的话来说就是

df[df['col'].isin([one massive list])]

我正在使用pig版本0.8

对于pig-0.8，请在过滤器中使用多个或

b = filter a by $16 == '12345678' OR $16 == '456' OR $16 == 'anotherval';

从Pig-0.12.0开始，您可以在操作符中使用b = filter a by $16 IN ('12345678', '456', ... ); @franklinsijio是否存在我可以从文件或其他文件读取列表的情况？@aceminer如果列表在文件中，则更简单的方法是使用@franklinsjio。似乎复制联接仅适用于小文件？我假设包含列表的文件将比实际数据文件小，在这种情况下，复制联接的性能更好，否则你可以用join来完成。无论哪种方式，join都将是解决方案。

[apache pig]相关文章推荐 Apache pig Pig：对外部方法的多次调用 apache-pig Apache pig 存储前转储是否会创建单独的作业？ apache-pig Apache pig 用UDF编程Pig apache-pig Apache pig 如何在pig中将元组转换为逗号分隔字符串 apache-pig Apache pig 用于处理第n-1条记录的PIG脚本 apache-pig Apache pig 猪的工作在同时进行时会受到阻碍 apache-pig Apache pig 如何找到pig中排名前两位的收视率？ apache-pig Apache pig Pig将数据存储在临时目录而不是实际目录中 apache-pig Apache pig ApachePig-将当前行的日期设置为给定id的下一个记录日期减去一天 apache-pig Apache pig 在pig中格式化输入文件 apache-pig Apache pig 清管器过滤器或操作员 apache-pig Apache pig 我想知道相对于下面的脚本，我的数据应该如何在文本文件中？ apache-pig Apache pig 使用pig脚本从聚合后的元组中提取单个值 apache-pig Apache pig 来自bag的Pig Sum字段不起作用 apache-pig Apache pig 将输出存储到Pig中的CSV文件 apache-pig Apache pig 计算数据中有多少不同长度的单词，例如，（8,1）（单词，长度） apache-pig 随机文章推荐 Function Oracle 10G:ORA-06575:函数处于无效状态 functionoracle10g Function R：函数不在外循环'；行不通 functionrloops Function 如何创建循环和更改sprite的函数'；什么位置？ functionloopscocos2d-iphone Function 博士后：关于函数的问题 functionpostgresql Function 马根托：这是哪里$_FormattedOptionValue“；正在创建？ functionmagento Function 在OpenMP fortran线程中调用函数 functionparallel-processingfortran Function 我可以更改PostgreSQL函数中的列标题吗？ functionpostgresql Function 将对象用作函数的变量 functionvbaobject Function SKScene'；s更新UIKit等效工具 functionswift Function AS2告诉剪辑从其父剪辑的功能中转到帧 functionflash Function slick连接函数输入 functionscalajoininput Function SPSS自动线性回归-运行最佳函数 function Function 如何在Spark Java中使用分析/窗口函数？ functionapache-spark Function 开关通过，但未完成操作处理导入处理。串行。*；//添加串行库串行myPort；//要监视的串行端口 pfontf；打印机输出； int-pianoBColor=0； int numKeys=6； int-sizeW=900； int sizeH=830； int pianobackgrown=sizeW*8/9； int pianoBackgroundH=sizeH/3； int blackSpace=30； int-Empty1； int-Empty2； int=20； int blackPres functionprocessing Function python变量输入自定义函数调用 functionpython-3.xvariables Function 获取jmeter中的数字格式异常错误 functionjmeter Function 结构拥有的函数的范围规则 functionstructrust Function 如何在tkinter窗口加载后运行函数 functiontkinterpythonpython-3.x Function 如何从另一页调用颤振中的函数 functionflutterdart Function 如何使一个按钮onclick触发的函数只触发一次？ functionbutton

[hadoop]相关推荐我可以使用Hadoop'；独立模式下的分布式缓存？ Hadoop Mapreduce Hadoop是这方面的合适技术吗？ Hadoop Mapreduce Hadoop流：链接作业 Hadoop Streaming Hadoop HDFS如何知道从哪个主机获取文件 Hadoop 如何在windows 64位计算机上安装hadoop和hive？我是个初学者，对此有点天真。请开导 Hadoop Hive Hadoop 覆盖TableMapper拆分 Hadoop Mapreduce Hbase Hadoop 编写RCFile-有多少个减速机？ Hadoop Hive Hadoop 分区表上配置单元中的GROUPBY提供重复的结果行 Hadoop Hive 在运行时模拟Kerberos安全Hadoop集群中的用户 Hadoop Hadoop Reducer：如何确保Reducer在多个节点上均匀运行 Hadoop Hadoop命令，Hadoop fs-ls正在抛出重试连接到服务器错误？ Hadoop Hadoop 对于MapReduce bechmarks，当我完成运行它们时，我是否能够分别知道输入/洗牌/输出数据的大小？ Hadoop Mapreduce 在Hadoop（HDFS）中获取文件的最后5行 Hadoop Hadoop节点和角色 Hadoop Mapreduce Hadoop 如何为Sqoop输出文件指定自定义名称 Hadoop Hadoop 如何使用色调在配置单元中传递变量 Hadoop Parameters Hive Hadoop 将hbase表的快照从一个命名空间克隆到另一个命名空间 Hadoop Hbase Hadoop Pig：容器正在使用oozie运行，超出CDH5中的物理内存限制 Hadoop Apache Pig 如何在Amazon EMR上配置Hadoop参数？ Hadoop Amazon Web Services 启动hadoop守护进程时出错（ConnectionRejected和ExitCodeException） Hadoop Hadoop 在色调上运行配置单元会产生错误 Hadoop Mapreduce Hive Hadoop 在sqoop中进行清理怎么样？ Hadoop Hadoop defaultFs的确切用途是什么 Hadoop Hadoop 如何进行namenode备份 Hadoop Hadoop HDFS中的文件何时关闭 Hadoop Hadoop 改变配置单元多列 Hadoop Hive Hadoop 不在，火柴在猪里 Hadoop Apache Pig Hadoop 使用Sqoop、HDFS和Hive的最佳实践 Hadoop Hive Hadoop 分区和bucketing配置单元表的优势是什么？ Hadoop Hive Hadoop Dataproc工作节点的磁盘利用率日益提高 Hadoop Google Cloud Platform Tags Jira Https Swing Processing Heroku Jenkins Jwt Swift3 Android Ndk Docker Compose Ignite Spring Batch Smtp Silverlight Stream Gtk Unity3d Hybris Javafx .net 4.0 Mpi Openssl Rss Search Kdb Xaml Postgresql Ibm Midrange Ftp Build Netlogo Ip Qml Cors Udp Visual Studio 2013 Angular6 Office365 Windows 7 Openstack Camera Discord.js Php Objective C Jpa Intellij Idea Coding Style C String Ios5 F# Android Layout Video Teamcity Artificial Intelligence Cakephp Playframework 2.0 Twitter Bootstrap 3 For Loop Amazon Redshift Browser Xquery Email Installation Virtual Machine Webrtc Passwords Html .net Core Nativescript Typo3 Android Coldfusion Android Fragments Quickbooks Notifications Java Ipython Jersey Maven Prolog Dns Razor Maps Mediawiki Orientdb Windows Phone Activerecord Selenium Antlr Drupal Serialization Dynamics Crm Keras Content Management System Formatting Sphinx Sqlite Odoo Network Programming Awk Pip Calendar Curl Soap Time Complexity Wicket Playframework Grid Asp Classic Tfs Parsing Sip Hyperledger Fabric Sqlalchemy Nsis Lotus Notes Acumatica Model View Controller Encryption Makefile Raspberry Pi Iis 7 Listview Hash Flutter Apache Spark Routes Usb Stored Procedures Jestjs Git Robotframework Filesystems Mfc Cryptography Django Models Visual Studio 2010 Qt Canvas Dask Uitableview Ffmpeg Actions On Google Bootstrap 4 Python Ruby On Rails Xmpp Ms Access Mapping Deployment Lambda Nservicebus Magento2 Glassfish Binding Reflection Nginx Plone Scala Sprite Kit Process Zsh Templates Outlook Here Api Netbeans Sencha Touch Discord.py Tinymce Debian Types Activemq Django Ant Shiny Azure Sql Database Spring Doctrine Orm Amazon Cloudformation Jetty Verilog Sorting Data Binding Database Design Markdown Google Apps Script Javascript Jquery Mobile Dojo Date Actionscript 3 Yaml Binary Apache Flex Gridview Time Typescript Cloud Foundry Pandas Xampp

Copyright © 2024. All Rights Reserved by - Fatal编程技术网