Python 使用Dask的具有可变列长度的大量csv文件
我试图使用Dask读取大量csv文件,但我遇到了一些问题,因为csv文件的列数不同,列的顺序也不同 我知道像d6tstack这样的软件包可以帮助处理这个问题,但是有没有一种方法可以在不安装其他库和不占用更多磁盘空间的情况下解决这个问题?如果您使用,那么您可以创建一个函数,按照您的意愿预处理每个输入文件。这是完全任意的,因此您可以选择使用自己的代码或任何要跨集群安装的包来解决问题Python 使用Dask的具有可变列长度的大量csv文件,python,pandas,dask,Python,Pandas,Dask,我试图使用Dask读取大量csv文件,但我遇到了一些问题,因为csv文件的列数不同,列的顺序也不同 我知道像d6tstack这样的软件包可以帮助处理这个问题,但是有没有一种方法可以在不安装其他库和不占用更多磁盘空间的情况下解决这个问题?如果您使用,那么您可以创建一个函数,按照您的意愿预处理每个输入文件。这是完全任意的,因此您可以选择使用自己的代码或任何要跨集群安装的包来解决问题 @dask.delayed def read_a_file(filename): df = pd.read_c
@dask.delayed
def read_a_file(filename):
df = pd.read_csv(filename). # or remote file
do_something_with_columns
return df_out
df = dd.from_delayed([read_a_file(f) for f in filenames], meta=...)
谢谢你的回复!这似乎是一个文件一个文件的基础上工作,但据推测,我需要查看所有文件的标题,以确定足够的列,并用NAN填充缺少的列。我会详细调查的。