如何从大型CSV文件中删除重复项？最好用r或python_Python_R_Csv_Duplicates

如何从大型CSV文件中删除重复项？最好用r或python

python r csv

如何从大型CSV文件中删除重复项？最好用r或python,python,r,csv,duplicates,Python,R,Csv,Duplicates,我有20 GB大小的大型CSV文件数据。它包含来自传感器的时间序列数据，时间列是否有多个重复值？我如何删除这些重复项由于文件太大，我无法在R中读取它，并且无法寻找在不读取文件或读取区块的情况下删除重复项的方法？您可以尝试使用fread from data.table读取文件 library(data.table) df<- fread("filename.csv") ##removing duplicates df1<- unique(df) 我希望你的系统有足够的内存。f

我有20 GB大小的大型CSV文件数据。它包含来自传感器的时间序列数据，时间列是否有多个重复值？我如何删除这些重复项

由于文件太大，我无法在R中读取它，并且无法寻找在不读取文件或读取区块的情况下删除重复项的方法？

您可以尝试使用fread from data.table读取文件

library(data.table)
df<- fread("filename.csv")

##removing duplicates 

df1<- unique(df)

我希望你的系统有足够的内存。fread的速度比read.csv快很多倍，我建议使用它，但如果不读取所有数据，这是不可能的。如果您无法将其放入RAM中，您可能必须采用数据库的方式…是的，我认为最好先使用数据库-假设它们具有相当快的连接，OP可以将其上传到BigQuery，然后使用类似bigrquery的R包与之交互。例如，他们可以使用dplyr:：distinct删除重复项，然后将消除重复的版本保存到新表中，然后将其用作分析的基础。