Python 使用regex模式从目录中读取文件

Python 使用regex模式从目录中读取文件,python,directory,wildcard,dask,Python,Directory,Wildcard,Dask,我有以下名称的目录: s3://bucket/elig_date=2020-06-01/ s3://bucket/elig_date=2020-06-02/ .... s3://bucket/elig_date=2020-09-30/ s3://bucket/elig_date=2020-10-01/ ... s3://bucket/elig_date=2020-12-31/ 当我想读取2020-06-01到2020-09-30期间所有目录中的所有文件时,我使用以下方法,并且它可以工作: im

我有以下名称的目录:

s3://bucket/elig_date=2020-06-01/
s3://bucket/elig_date=2020-06-02/
....
s3://bucket/elig_date=2020-09-30/
s3://bucket/elig_date=2020-10-01/
...
s3://bucket/elig_date=2020-12-31/
当我想读取2020-06-01到2020-09-30期间所有目录中的所有文件时,我使用以下方法,并且它可以工作:

import dask.dataframe as dd
all_data = dd.read_parquet("s3://bucket/elig_date=2020-0[6-9]-*/*")
all_data = dd.read_parquet("s3://bucket/elig_date=2020-0[6-9]|1[0-2]-*/*")
但是,我想将其扩展到目录2020-12-31,我正在尝试以下操作,但它不起作用:

import dask.dataframe as dd
all_data = dd.read_parquet("s3://bucket/elig_date=2020-0[6-9]-*/*")
all_data = dd.read_parquet("s3://bucket/elig_date=2020-0[6-9]|1[0-2]-*/*")
这会引发以下错误:

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-61-60da829cf51e> in <module>
----> 1 all_data = dd.read_parquet("s3://bucket/elig_date=2020-0[6-9]|1[0-2]-*/*") 

~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/core.py in read_parquet(path, columns, filters, categories, index, storage_options, engine, gather_statistics, split_row_groups, read_from_paths, chunksize, **kwargs)
    333         index = [index]
    334 
--> 335     meta, statistics, parts, index = engine.read_metadata(
    336         fs,
    337         paths,

~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/arrow.py in read_metadata(cls, fs, paths, categories, index, gather_statistics, filters, split_row_groups, read_from_paths, engine, **kwargs)
    497             split_row_groups,
    498             gather_statistics,
--> 499         ) = cls._gather_metadata(
    500             paths,
    501             fs,

~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/arrow.py in _gather_metadata(cls, paths, fs, split_row_groups, gather_statistics, filters, index, read_from_paths, dataset_kwargs)
   1647 
   1648         # Step 1: Create a ParquetDataset object
-> 1649         dataset, base, fns = _get_dataset_object(paths, fs, filters, dataset_kwargs)
   1650         if fns == [None]:
   1651             # This is a single file. No danger in gathering statistics

~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/arrow.py in _get_dataset_object(paths, fs, filters, dataset_kwargs)
   1600         if proxy_metadata:
   1601             dataset.metadata = proxy_metadata
-> 1602     elif fs.isdir(paths[0]):
   1603         # This is a directory.  We can let pyarrow do its thing.
   1604         # Note: In the future, it may be best to avoid listing the

IndexError: list index out of range
---------------------------------------------------------------------------
索引器回溯(最后一次最近调用)
在里面
---->1所有数据=dd.read_拼花地板(“s3://bucket/elig_date=2020-0[6-9]| 1[0-2]-*/*”)
读取拼花地板中的~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/core.py(路径、列、过滤器、类别、索引、存储选项、引擎、收集统计信息、拆分行组、从路径读取、chunksize、**kwargs)
333索引=[索引]
334
-->335元、统计、部件、索引=engine.read\u元数据(
336财政司司长,
337条路,
读取元数据中的~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/arrow.py(cls、fs、路径、类别、索引、收集统计信息、过滤器、拆分行组、从路径读取、引擎、**kwargs)
497个分组,
498收集统计数据,
-->499)=cls.\u收集\u元数据(
500条路,
501财政司司长,
~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/arrow.py in\u-gather\u元数据(cls、路径、fs、拆分行组、聚集统计、过滤器、索引、从路径读取、数据集\u-kwargs)
1647
1648#步骤1:创建ParquetDataset对象
->1649数据集,基本,fns=\u获取\u数据集\u对象(路径、fs、过滤器、数据集\u kwargs)
1650如果fns==[无]:
1651#这是一个文件。收集统计数据没有危险
~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/arrow.py in\u get\u dataset\u对象(路径、fs、过滤器、数据集\u kwargs)
1600如果代理_元数据:
1601 dataset.metadata=代理\元数据
->1602 elif fs.isdir(路径[0]):
1603#这是一个目录。我们可以让pyarrow做它的事情。
注意:在未来,最好避免将
索引器:列表索引超出范围

我只在regExr上测试了它,因为我没有你的文件。 但这在那里起了作用:

s3://bucket/elig_date=2020-(0[6-9])|(1[0-2])-*/*

和你一样,只是用括号

我仍然得到相同的索引器:列表索引超出范围!你能试试下面的方法吗?s3://bucket/elig_date=2020-((0[6-9])(1[0-2]))*我会继续接受你的答案,因为它与regex一起工作。我想我的内核/包应该有一些问题。你确定它接受regex吗?@Thefourthbird:是的,它肯定接受!我的一位同事对
elig_date=2020-0[6-9]| 1[0-2]-*/*
没有问题,只有我一个人!!