Hive 使用AND&；的过滤操作顺序；还是在蜂箱里_Hive_Apache Pig - Fatal编程技术网

Hive 使用AND&；的过滤操作顺序；还是在蜂箱里

hive apache-pig

Hive 使用AND&；的过滤操作顺序；还是在蜂箱里,hive,apache-pig,Hive,Apache Pig,假设我有一个蜂巢查询，看起来像这样： SELECT COUNT(*) FROM my_table WHERE col1 LIKE "%str1%" -- matches 1% of rows OR col1 LIKE "%str2%" -- matches 1% of rows OR col1 LIKE "%str3%" -- matches 0 rows OR col1 LIKE "%str4%" -- matche

假设我有一个蜂巢查询，看起来像这样：

SELECT COUNT(*) FROM my_table WHERE
    col1 LIKE "%str1%"         -- matches 1% of rows
    OR col1 LIKE "%str2%"      -- matches 1% of rows
    OR col1 LIKE "%str3%"      -- matches 0 rows
    OR col1 LIKE "%str4%"      -- matches 90% of rows
    (...more...);

如果我匹配的这些字符串中有一些比其他字符串更常见，我想知道如果将

列1（如“%str4%”）移到列表的顶部，我会获得什么（如果有的话）性能提升
上面的例子有点简单，但是如果这些或操作中的每一个都是长字符串上的正则表达式匹配，我可以想象执行几乎所有时间都失败的3个匹配（str1
，str2
，str3
）的时间将变得相当昂贵
配置单元是否按顺序循环执行这些操作，并在确定true
匹配时中断？我想值得一问的是，等效清管器操作是否也以这种方式工作。
对于清管器，以下内容应予以澄清：
如果可能，清管器将短路布尔运算。如果第一个
and的（左）谓词为false，则第二个（右）谓词不为false
评价的。因此，在1==2和udf（x）中，将永远不会调用udf。
类似地，如果or的第一个谓词为true，则第二个谓词
谓词将不会被求值。1==1或udf（x）永远不会调用
自由民主党
因此，如果您的每个逻辑运算符都执行一些重载操作，那么对它们进行重新排序，使它们在第一个条件下对90%的记录短路，这将为您带来一些性能提升。请注意，YMMV代表“一些性能增益”，因为它将根据逻辑操作的总数（示例仅给出4个，可能更多）、正则表达式短路的复杂性以及匹配数据的大小/特征而变化




[apache pig]相关文章推荐



                                                        
Apache pig 过滤清管器数据加载两次？
apache-pig 
Apache pig 清管器-如何包括'；）'；内线火柴
apache-pig 
Apache pig pig：用导入的脚本描述
apache-pig 
Apache pig 在哪里贡献Apache Pig UDF？
apache-pigopen-source 
Apache pig Pig-加载具有不同模式的多个文件
apache-pig 
Apache pig 在猪UDF中恢复Avro记录
apache-pig 
Apache pig 清管器出口代码的含义是什么？
apache-pig 
Apache pig 在清管器中限制但不是顺序
apache-pig 
Apache pig 如何在Apache Pig中从YYYY-MM-DD HH:MM:SS日期转换为时间（毫秒）
apache-pig 
Apache pig 将包和元组的元组展平
apache-pig 
Apache pig 无法使用导入解析org.apache.hcatalog.pig.hcatloader
apache-pig 
Apache pig 如何获取pig中最大和最小值的名称
apache-pig 
Apache pig 如何使用单个load命令加载不同级别存储的Pig中的特定文件
apache-pig 
Apache pig SQL的select*from表名的Pig等效项
apache-pig 
                                       





随机文章推荐



                                                        
String unixsbash：从字符串中提取数字
stringbashunix 
String Linq选择两个字符串之间的范围，例如Col-thru Io
stringlinq 
String 如何在Stata中将字符串变量转换为数字变量？
stringvariablesstata 
String 如何矢量化具有嵌套for循环的字符串获取脚本？
stringr 
String 将文本字符串（纯文本）附加到XPath结果
stringtextxpath 
String 将字符串格式化为Google文档的货币
stringgoogle-apps-scriptformatting 
String 空TCL字符串导致不可打印字符，导致项目打开崩溃
stringtcl 
String 使用批处理文件将Ping命令输出保存到变量中
stringwindowsbatch-filecmd 
String F#计算子字符串在字符串中包含的次数
stringf# 
String 解释以数字和字母为特征的哈希值中的位数
stringhash 
String 戈朗语词的最佳审查方式
stringtextgo 
String 如何将字符串切分到Go中的特定字符？
stringgo 
String 将字符串结果传递给查询，然后导出为csv
stringvbams-access 
String 如何在Swift3中从UITextField文本中切掉前几个字符？
stringswift3 
String Bash字符串比较不求值为true
stringbash 
String 如何在字符串变量中识别变量？
stringbashvariablesterminal 
String 使用map和toInt将字符串转换为Scala中的数字集合
stringscala 
String 在单元测试中使用与被测系统相同的常数是一个好主意吗？
stringunit-testing 
String 甲骨文选择制作月份
stringoracledateselect 
String 有没有办法从Clojure中另一个函数的列表中创建函数中的字符串？
stringlistclojure


                                        

                                        
                                        


                                                
                                                        [hive]相关推荐
                                                        
Hive 查询返回非零代码：10，原因：失败
									Hive
							 
Hive 配置单元作业控制信息
									Hive
							 
Hive 是否从配置单元表中删除所有分区？
									Hive
							 
Hive 使用配置单元转换用于单击路径分析的日志
									Hive
							 
HiveServer2在启动时未拾取正确的Kerberos主体
									Hive
							 
Hive Hcatalog配置单元问题java.lang.IllegalArgumentException:URI:没有方案
									Hive
							 
Hive Hadoop配置单元-如何查询部分行
									Hive
							 
Hive presto拼花地板表中的时间戳字段显示错误数据
									Hive
							 
Hive 检索Hbase版本数据
									Hive
							 									Hbase
							 
Hive 配置单元表独占锁
									Hive
							 
Hive 如何在配置单元中提取日期和时间
									Hive
							 
通过hiveserver2-client.py连接到配置单元时发生套接字错误
									Hive
							 
Hive 如何在配置单元中转换运行时的十进制值
									Hive
							 
Hive hadoop配置单元插入查询将一个表的所有行插入到另一个表中
									Hive
							 
Hive Sqoop加载空值
									Hive
							 
Hive 配置单元加载数据路径覆盖文本格式文件，导致SKEY列值重复
									Hive
							 
Hive 数据科学体验以一个空的配置单元表进行响应
									Hive
							 									Pyspark
							 									Ibm Cloud
							 
Hive 蜂巢窗口顺序
									Hive
							 
Hive 就像操作员不在蜂箱上工作一样，该怎么办？
									Hive
							 
Hive 用于大表的配置单元分区
									Hive
							 
Hive 配置单元-基于当前值替换下一条记录的值
									Hive
							 
Hive 配置单元：无法将数据从未分区表复制到分区表
									Hive
							 
Hive 如何在从配置单元表中选择时替换新行字符
									Hive
							 
Hive 将列名转换为配置单元中的行
									Hive
							 
Hive 配置单元，将不同的行传递到函数中
									Hive
							 
Hive 配置单元SQL聚合将多个SQL合并为一个SQL
									Hive
							 
Hive Druid数据源存储大小大于配置单元orc大小
									Hive
							 
Hive 映射者数量：Mapreduce与Sqoop
									Hive
							 									Mapreduce
							 
Hive 更改avro架构中的数据类型
									Hive
							 
Hive 配置单元/粘合表中特定于分区的模式背后的基本原理
									Hive
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Wxpython
Crystal Reports
Google Bigquery
Google Maps
Ecmascript 6
Openshift
Big O
Terraform
Rest
Moodle
Ajax
3d
Html
Subsonic
Odata
Xpages
Xamarin.forms
Sphinx
Hash
Extjs4
C# 3.0
Sockets
Electron
Ftp
Mqtt
Influxdb
Notepad++
Wso2
Asp.net Mvc 4
Sharepoint
Jetty
Yocto
Oracle Apex
Ibm Mq
Fluent Nhibernate
Clojure
Browser
Cygwin
Visual Studio 2012
Snowflake Cloud Data Platform
Ms Access
Report
Google Compute Engine
Android Emulator
Windows Mobile
Nuget
Azure Active Directory
Youtube Api
Javafx
Mapping
Parameters
Here Api
Logstash
Makefile
Version Control
Text
Twitter Bootstrap 3
Build
Paypal
Devexpress
Apache Nifi
Zend Framework
Verilog
Ansible
Certificate
Redux
Sequelize.js
Language Agnostic
Visual C++
Open Source
Gatsby
Internet Explorer
Reporting Services
Windows Services
Hadoop
Timer
Python 3.x
Liferay
Activerecord
Angular
Generics
Eclipse
Blazor
Groovy
List
Command Line
Air
Fortran
Coldfusion
Tfs
Google App Maker
Sml
Internationalization
Sails.js
Openerp
Gstreamer
Breeze
Windows Runtime
Log4net
Processing
Asp.net Mvc
Utf 8
Unix
Artifactory
Geolocation
Angular6
Highcharts
Wcf
Asp.net Web Api
Pycharm
Windbg
Perforce
Material Ui
Android Fragments
Image
Playframework
Google App Engine
Xaml
Triggers
Windows Phone 8.1
Ssas
Vb.net
Microservices
Shiny
Asp.net Mvc 3
Docker Compose
Keyboard
Kubernetes
Google Api
Zurb Foundation
Arrays
Qt
Windows 8
Symfony1
Resharper
Selenium Webdriver
Cluster Computing
Sql Server 2008 R2
Nativescript
Signalr
Loops
Salesforce
Openid
Ruby On Rails 3.2
Cucumber
Pine Script
Amazon Ec2
C#
Nestjs
Frameworks
Apache Zookeeper
Cocoa
Computer Science
Model
Postgresql
Isabelle
Syntax
Configuration
Programming Languages
E Commerce
Airflow
Npm
Notifications
Extjs
Grid
Discord
Ibm Mobilefirst
Cloud Foundry
Next.js
Install4j
Twitter
Iphone
Coffeescript
Dojo
Compiler Errors
Azure Functions
Aws Lambda
Character Encoding
Matrix
Drupal 7
Haskell
Responsive Design
Opengl Es
Aem
Boost
Redirect
Join
Firebase
Selenium
Rxjs
Regex
Collections
D
Combobox
Exception
Sqlalchemy
Neo4j
Hybris
C# 4.0
Enums
Database Design


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网