Apache pig 优化器在ApachePig体系结构中做什么?

Apache pig 优化器在ApachePig体系结构中做什么?,apache-pig,hadoop2,Apache Pig,Hadoop2,我不熟悉ApachePig,并试图了解它的体系结构 链接已提交- 有人能解释一下优化器在ApachePig体系结构中的作用吗 它说: 解析器生成的有向无环图被传递给逻辑优化器,后者执行逻辑优化,如投影和下推 我不清楚什么是投影和下推的意思。Pig进行了大量优化,您可以在此处阅读更多相关信息:。让我们更深入地了解一下您提到的优化: 下推优化 Pushdown或predicate Pushdown是许多语言中常见的优化,如Pig、Hive、Spark、SQL等。predicate Pushdown概

我不熟悉ApachePig,并试图了解它的体系结构

链接已提交-

有人能解释一下优化器在ApachePig体系结构中的作用吗

它说:

解析器生成的有向无环图被传递给逻辑优化器,后者执行逻辑优化,如投影和下推


我不清楚什么是
投影
下推
的意思。

Pig进行了大量优化,您可以在此处阅读更多相关信息:。让我们更深入地了解一下您提到的优化:

下推优化
Pushdown
predicate Pushdown
是许多语言中常见的优化,如Pig、Hive、Spark、SQL等。predicate Pushdown概念的要点(来源:):

  • 如果您在一个地方发出查询以针对另一个地方的大量数据运行,则可能会产生大量网络流量,这可能会很慢,而且成本高昂
  • 然而… …如果您可以将查询的部分“下推”到存储数据的位置,从而过滤掉大部分数据,则可以大大减少网络流量
在Pig的范围内,
PredicatePushdownOptimizer
,优化器将相关的过滤条件推送到加载程序,作为尽可能早地在数据ETL管道中过滤数据的提示。(参考资料:)

投影优化
Projection
ColumnMapKeyPrune
是Pig进行的优化,将加载程序修剪为只加载必要的列。当然,相应的加载程序必须支持列修剪。通过在数据ETL管道中尽可能早的一步限制数据,这种优化也与
下推
优化具有相同的思想。(参考资料:)