Python Pyarrow ParquetDataset.read（）在配置单元分区的S3数据集上运行缓慢，尽管使用了过滤器_Python_Amazon S3_Hive_Pyarrow

Python Pyarrow ParquetDataset.read（）在配置单元分区的S3数据集上运行缓慢，尽管使用了过滤器

python amazon-s3 hive

Python Pyarrow ParquetDataset.read（）在配置单元分区的S3数据集上运行缓慢，尽管使用了过滤器,python,amazon-s3,hive,pyarrow,Python,Amazon S3,Hive,Pyarrow,尽管使用了filters标志，但尝试从大型拼花地板数据集中读取一天的数据非常慢。我使用过滤器的方式有问题吗？如果是，我可以做些什么来纠正这个问题我有一个很大的拼花地板数据集，S3中有数百万个文件，这些文件是由配置单元分区的spark作业生成的。分区模式如下所示： s3://bucket-name/dataset-name/year=2019/month=5/day=23 代码如下： import s3fs import pyarrow.parquet as pq s3_path = 's3:

尽管使用了filters标志，但尝试从大型拼花地板数据集中读取一天的数据非常慢。我使用过滤器的方式有问题吗？如果是，我可以做些什么来纠正这个问题

我有一个很大的拼花地板数据集，S3中有数百万个文件，这些文件是由配置单元分区的spark作业生成的。分区模式如下所示：

s3://bucket-name/dataset-name/year=2019/month=5/day=23

代码如下：

import s3fs
import pyarrow.parquet as pq
s3_path = 's3://bucket-name/dataset-name'
s3 = s3fs.S3FileSystem()
hive_filter = [('year', '=', 2019), ('month', '=', 11), ('day', '=', 13)]
pyarrow_dataset = pq.ParquetDataset(s3_path, filesystem=s3, filters=hive_filter)
pyarrow_table = pyarrow_dataset.read()

如果我指定一天的S3路径，那么运行速度非常快。不幸的是，这不起作用，因为我通常希望一次选择多天的数据，而不希望扫描整个数据集。我的解决方法是使用一个S3客户机来列出目录，从而拥有一个能够自己有效实现过滤器的函数

其他信息：

在Jupyter笔记本中进行测试时，第一次运行非常缓慢。后续运行的速度与我指定S3路径时的速度相同。我怀疑是某种缓存造成的。不幸的是，我需要第一次跑步