Python 预处理csv数据集重建后

Python 预处理csv数据集重建后,python,csv,dataframe,Python,Csv,Dataframe,我加载了一个csv文件进行数据预处理。 完成数据预处理后,并非csv文件中的所有列都是必需的。 所以我想通过只提取几个必要的列来重建csv文件。 我应该使用什么代码 例如,列=a,b,c,d,e,f,g,h,i,但我只需要a,b,c,d so before csv file : columns = a,b,c,d,e,f,g,h,i after csv file : columns = a,b,c,d *数据集非常大,大约为6gb *python 3.6.9 *使用pandas使用库提供的方

我加载了一个csv文件进行数据预处理。 完成数据预处理后,并非csv文件中的所有列都是必需的。 所以我想通过只提取几个必要的列来重建csv文件。 我应该使用什么代码

例如,列=a,b,c,d,e,f,g,h,i,但我只需要a,b,c,d so

before csv file : columns = a,b,c,d,e,f,g,h,i

after csv file : columns = a,b,c,d
*数据集非常大,大约为6gb *python 3.6.9
*使用pandas

使用库提供的方法
read\u csv
,您可以从csv文件中读取部分(而不是全部)列

定义一个变量,如

cols = ['a', 'b', 'c', 'd']
包含所需列的名称的。将参数函数
usecols
设置为等于
cols

import pandas as pd
df = pd.read_csv(path_file, usecols=cols)

毕竟,数据帧
df
包含
cols
中定义的列中的值。因为你只需要读几个专栏,所以花的时间就少了

参考如果您使用的是pandasYou,则应包括您迄今为止尝试过的解决方案的详细信息,可能是一个特定的模块以及它所面临的问题。社区可以通过这种方式帮助您更好地调试它。