Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/three.js/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 摄入150 csv';将数据合并到一个数据源中_Python_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Bigdata - Fatal编程技术网 elasticsearch,bigdata,Python,elasticsearch,Bigdata" /> elasticsearch,bigdata,Python,elasticsearch,Bigdata" />

Python 摄入150 csv';将数据合并到一个数据源中

Python 摄入150 csv';将数据合并到一个数据源中,python,elasticsearch,bigdata,Python,elasticsearch,Bigdata,您好,我对处理大数据完全陌生,对python非常熟悉 我有150个csv,每个大小为70MB,我必须将其集成到一个源中,以删除诸如唯一计数、唯一名称等基本统计信息 谁能建议我该怎么做? 我在python中遇到了一个名为“pyelasticsearch”的包,它对我来说在EnhaughtCanopy中使用是多么的可行 需要建议 如果您在AWS,请选择一个选项 步骤1-将数据移动到S3(AWS本机文件存储) 步骤2-为红移中的每个数据结构创建表 步骤3-运行COPY命令将数据从S3移动到红移(AWS

您好,我对处理大数据完全陌生,对python非常熟悉 我有150个csv,每个大小为70MB,我必须将其集成到一个源中,以删除诸如唯一计数、唯一名称等基本统计信息

谁能建议我该怎么做? 我在python中遇到了一个名为“pyelasticsearch”的包,它对我来说在EnhaughtCanopy中使用是多么的可行


需要建议

如果您在AWS,请选择一个选项

步骤1-将数据移动到S3(AWS本机文件存储) 步骤2-为红移中的每个数据结构创建表 步骤3-运行COPY命令将数据从S3移动到红移(AWS本机DW)


尝试使用
pandas
软件包

读取单个csv将是:

import pandas as pd
df = pd.read_csv('filelocation.csv')
如果有多个文件,只需
concat
。假设
ls
是一个文件位置列表,那么:

df = pd.concat([pd.read_csv(f) for f in ls])
然后,要将它们作为单个文件写入,请执行以下操作:

df.to_csv('output.csv')
当然,所有这些都适用于内存操作(70x150=~10.5 GB RAM)。如果这是不可能的-考虑建立一个渐进的过程或使用<代码> DASK < /COD> DATAFAFRAMS. < /P>
df.to_csv('output.csv')