Amazon web services Amazon S3/EMR中的拼花地板下推过滤器

Amazon web services Amazon S3/EMR中的拼花地板下推过滤器,amazon-web-services,apache-spark,amazon-s3,amazon-emr,parquet,Amazon Web Services,Apache Spark,Amazon S3,Amazon Emr,Parquet,在以下情况下,如果我在spark群集上运行,谓词下推是否有效: 自定义EC2实例上运行spark,拼花文件驻留在S3中 Spark cluster在EMR上运行,而拼花文件又在S3上运行 发现了一个类似的问题,但上面的答案太旧。是的答案仍然有效,还有一个基本前提,即拼花地板的下推能力不依赖于存储类型。另外,最近的Spark版本(2.4)增加了其他数据类型(时间戳、十进制)和谓词的下推 例如,您可以通过查看更改,或者阅读“如果您喜欢最终真相”,查看更改。显然,当时有效的“是”答案现在仍然有效。另外

在以下情况下,如果我在spark群集上运行,谓词下推是否有效:

  • 自定义EC2实例上运行spark,拼花文件驻留在S3中
  • Spark cluster在EMR上运行,而拼花文件又在S3上运行

  • 发现了一个类似的问题,但上面的答案太旧。

    是的答案仍然有效,还有一个基本前提,即拼花地板的下推能力不依赖于存储类型。另外,最近的Spark版本(2.4)增加了其他数据类型(时间戳、十进制)和谓词的下推


    例如,您可以通过查看更改,或者阅读“如果您喜欢最终真相”,查看更改。

    显然,当时有效的“是”答案现在仍然有效。另外,在回答中提到的2.2版本之后的Spark的最新版本中,添加了对其他数据类型(时间戳、十进制)的下推。我已经提到了它是重复的,但上面的答案太旧,不再作为Spark有效,aws和emr在3年内发展years@mazaneicha你能让我参考一些详细提到下推的文档吗?@SumitAgarwal我将我的评论复制到一个答案中,并添加了几个链接。谢谢。这就是我要找的:谢谢@SumitAgarwal,这很有趣!但是,如果我理解他们的想法,
    s3select
    被建议作为一种替代格式,以支持CSV和JSON文件的下推(有一些限制),这里没有提到拼花格式。同意,我仍在探索更多关于它的内容,可能会亲自动手来达成最终结论。如果我找到了一些关于它的信息,我将在这里分享。s3 select可能会在拼花地板上进行下推,但结果会以json的形式返回,因此没有什么用处。使用spark中的真正拼花地板库可能会更好