如何从大型CSV文件中删除重复项?最好用r或python

如何从大型CSV文件中删除重复项?最好用r或python,python,r,csv,duplicates,Python,R,Csv,Duplicates,我有20 GB大小的大型CSV文件数据。它包含来自传感器的时间序列数据,时间列是否有多个重复值?我如何删除这些重复项 由于文件太大,我无法在R中读取它,并且无法寻找在不读取文件或读取区块的情况下删除重复项的方法?您可以尝试使用fread from data.table读取文件 library(data.table) df<- fread("filename.csv") ##removing duplicates df1<- unique(df) 我希望你的系统有足够的内存。f

我有20 GB大小的大型CSV文件数据。它包含来自传感器的时间序列数据,时间列是否有多个重复值?我如何删除这些重复项


由于文件太大,我无法在R中读取它,并且无法寻找在不读取文件或读取区块的情况下删除重复项的方法?

您可以尝试使用fread from data.table读取文件

library(data.table)
df<- fread("filename.csv")

##removing duplicates 

df1<- unique(df)

我希望你的系统有足够的内存。fread的速度比read.csv快很多倍,我建议使用它,但如果不读取所有数据,这是不可能的。如果您无法将其放入RAM中,您可能必须采用数据库的方式…是的,我认为最好先使用数据库-假设它们具有相当快的连接,OP可以将其上传到BigQuery,然后使用类似bigrquery的R包与之交互。例如,他们可以使用dplyr::distinct删除重复项,然后将消除重复的版本保存到新表中,然后将其用作分析的基础。