Python 摄入150 csv';将数据合并到一个数据源中
您好,我对处理大数据完全陌生,对python非常熟悉 我有150个csv,每个大小为70MB,我必须将其集成到一个源中,以删除诸如唯一计数、唯一名称等基本统计信息 谁能建议我该怎么做? 我在python中遇到了一个名为“pyelasticsearch”的包,它对我来说在EnhaughtCanopy中使用是多么的可行Python 摄入150 csv';将数据合并到一个数据源中,python,
elasticsearch,bigdata,Python,
elasticsearch,Bigdata,您好,我对处理大数据完全陌生,对python非常熟悉 我有150个csv,每个大小为70MB,我必须将其集成到一个源中,以删除诸如唯一计数、唯一名称等基本统计信息 谁能建议我该怎么做? 我在python中遇到了一个名为“pyelasticsearch”的包,它对我来说在EnhaughtCanopy中使用是多么的可行 需要建议 如果您在AWS,请选择一个选项 步骤1-将数据移动到S3(AWS本机文件存储) 步骤2-为红移中的每个数据结构创建表 步骤3-运行COPY命令将数据从S3移动到红移(AWS
需要建议 如果您在AWS,请选择一个选项 步骤1-将数据移动到S3(AWS本机文件存储) 步骤2-为红移中的每个数据结构创建表 步骤3-运行COPY命令将数据从S3移动到红移(AWS本机DW)
尝试使用
pandas
软件包
读取单个csv将是:
import pandas as pd
df = pd.read_csv('filelocation.csv')
如果有多个文件,只需concat
。假设ls
是一个文件位置列表,那么:
df = pd.concat([pd.read_csv(f) for f in ls])
然后,要将它们作为单个文件写入,请执行以下操作:
df.to_csv('output.csv')
当然,所有这些都适用于内存操作(70x150=~10.5 GB RAM)。如果这是不可能的-考虑建立一个渐进的过程或使用<代码> DASK < /COD> DATAFAFRAMS. < /P>
df.to_csv('output.csv')