Python Dask-查询时长度不匹配_Python_Dask_Dask Dataframe

Python Dask-查询时长度不匹配

python dask

Python Dask-查询时长度不匹配,python,dask,dask-dataframe,Python,Dask,Dask Dataframe,我正在尝试将大量csv导入单个数据框，并希望在特定日期后过滤数据这是个错误，我不知道出了什么问题是因为列不匹配吗？如果是，是否有一种方法可以读取所有csv并以这样的方式执行联合，即数据帧将具有所有列名，并且不会显示以下错误 import dask.dataframe as dd df = dd.read_csv('XXXXXXX*.csv',assume_missing=True) df['time'] = df['time'].map(lambda x: pd.to_datetime(x,

我正在尝试将大量csv导入单个数据框，并希望在特定日期后过滤数据

这是个错误，我不知道出了什么问题

是因为列不匹配吗？如果是，是否有一种方法可以读取所有csv并以这样的方式执行联合，即数据帧将具有所有列名，并且不会显示以下错误

import dask.dataframe as dd
df = dd.read_csv('XXXXXXX*.csv',assume_missing=True)
df['time'] = df['time'].map(lambda x: pd.to_datetime(x, errors='coerce'))
filter_t=df_req[df_req['time']>='2020-11-21 21:22:19']
filter_t.head(npartitions=-1)

问题不清楚，但如果列不匹配，则使用

dd.read\u csv

不合适。一个选项是编写一个自定义的延迟包装器来强制执行特定的列结构。这大致如下所示：

#这是最终数据帧应包含的列列表
列出所有列=['a'，b'，c']
从dask导入延迟
@耽搁
def加载_csv（f）：
df=pd.read\u csv（f）
对于列表中所有列中的c：
如果c不在df列中：
df[c]=np.nan
返回df
ddf=dd.from_delayed（[load_csv（f）for f in glob（'x*csv'））
#工作流程的其余部分将继续

谢谢你的帮助