Python 预处理csv数据集重建后_Python_Csv_Dataframe

Python 预处理csv数据集重建后

python csv dataframe

Python 预处理csv数据集重建后,python,csv,dataframe,Python,Csv,Dataframe,我加载了一个csv文件进行数据预处理。完成数据预处理后，并非csv文件中的所有列都是必需的。所以我想通过只提取几个必要的列来重建csv文件。我应该使用什么代码例如，列=a，b，c，d，e，f，g，h，i，但我只需要a，b，c，d so before csv file : columns = a,b,c,d,e,f,g,h,i after csv file : columns = a,b,c,d *数据集非常大，大约为6gb *python 3.6.9 *使用pandas使用库提供的方

我加载了一个csv文件进行数据预处理。完成数据预处理后，并非csv文件中的所有列都是必需的。所以我想通过只提取几个必要的列来重建csv文件。我应该使用什么代码

例如，列=a，b，c，d，e，f，g，h，i，但我只需要a，b，c，d so

before csv file : columns = a,b,c,d,e,f,g,h,i

after csv file : columns = a,b,c,d

*数据集非常大，大约为6gb *python 3.6.9

*使用pandas

使用库提供的方法

read\u csv

，您可以从csv文件中读取部分（而不是全部）列

定义一个变量，如

cols = ['a', 'b', 'c', 'd']

包含所需列的名称的。将参数函数

usecols

设置为等于

cols

：

import pandas as pd
df = pd.read_csv(path_file, usecols=cols)

毕竟，数据帧

df

包含

cols

中定义的列中的值。因为你只需要读几个专栏，所以花的时间就少了

参考如果您使用的是pandasYou，则应包括您迄今为止尝试过的解决方案的详细信息，可能是一个特定的模块以及它所面临的问题。社区可以通过这种方式帮助您更好地调试它。