Python 摄入150 csv'；将数据合并到一个数据源中_Python_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Bigdata

Python 摄入150 csv'；将数据合并到一个数据源中

python

Python 摄入150 csv'；将数据合并到一个数据源中,python,elasticsearch,bigdata,Python,elasticsearch,Bigdata,您好，我对处理大数据完全陌生，对python非常熟悉我有150个csv，每个大小为70MB，我必须将其集成到一个源中，以删除诸如唯一计数、唯一名称等基本统计信息谁能建议我该怎么做？我在python中遇到了一个名为“pyelasticsearch”的包，它对我来说在EnhaughtCanopy中使用是多么的可行需要建议如果您在AWS，请选择一个选项步骤1-将数据移动到S3（AWS本机文件存储）步骤2-为红移中的每个数据结构创建表步骤3-运行COPY命令将数据从S3移动到红移（AWS

您好，我对处理大数据完全陌生，对python非常熟悉我有150个csv，每个大小为70MB，我必须将其集成到一个源中，以删除诸如唯一计数、唯一名称等基本统计信息

谁能建议我该怎么做？我在python中遇到了一个名为“pyelasticsearch”的包，它对我来说在EnhaughtCanopy中使用是多么的可行

需要建议

如果您在AWS，请选择一个选项

步骤1-将数据移动到S3（AWS本机文件存储）步骤2-为红移中的每个数据结构创建表步骤3-运行COPY命令将数据从S3移动到红移（AWS本机DW）

尝试使用

pandas

软件包

读取单个csv将是：

import pandas as pd
df = pd.read_csv('filelocation.csv')

如果有多个文件，只需

concat

。假设

ls

是一个文件位置列表，那么：

df = pd.concat([pd.read_csv(f) for f in ls])

然后，要将它们作为单个文件写入，请执行以下操作：

df.to_csv('output.csv')

当然，所有这些都适用于内存操作（70x150=~10.5 GB RAM）。如果这是不可能的-考虑建立一个渐进的过程或使用<代码> DASK < /COD> DATAFAFRAMS. < /P>

df.to_csv('output.csv')