Python Dask-查询时长度不匹配

Python Dask-查询时长度不匹配,python,dask,dask-dataframe,Python,Dask,Dask Dataframe,我正在尝试将大量csv导入单个数据框,并希望在特定日期后过滤数据 这是个错误,我不知道出了什么问题 是因为列不匹配吗?如果是,是否有一种方法可以读取所有csv并以这样的方式执行联合,即数据帧将具有所有列名,并且不会显示以下错误 import dask.dataframe as dd df = dd.read_csv('XXXXXXX*.csv',assume_missing=True) df['time'] = df['time'].map(lambda x: pd.to_datetime(x,

我正在尝试将大量csv导入单个数据框,并希望在特定日期后过滤数据

这是个错误,我不知道出了什么问题

是因为列不匹配吗?如果是,是否有一种方法可以读取所有csv并以这样的方式执行联合,即数据帧将具有所有列名,并且不会显示以下错误

import dask.dataframe as dd
df = dd.read_csv('XXXXXXX*.csv',assume_missing=True)
df['time'] = df['time'].map(lambda x: pd.to_datetime(x, errors='coerce'))
filter_t=df_req[df_req['time']>='2020-11-21 21:22:19']
filter_t.head(npartitions=-1)

问题不清楚,但如果列不匹配,则使用
dd.read\u csv
不合适。一个选项是编写一个自定义的延迟包装器来强制执行特定的列结构。这大致如下所示:

#这是最终数据帧应包含的列列表
列出所有列=['a',b',c']
从dask导入延迟
@耽搁
def加载_csv(f):
df=pd.read\u csv(f)
对于列表中所有列中的c:
如果c不在df列中:
df[c]=np.nan
返回df
ddf=dd.from_delayed([load_csv(f)for f in glob('x*csv'))
#工作流程的其余部分将继续

谢谢你的帮助