将20 GB csv文件加载到R中的最佳方式是什么?

将20 GB csv文件加载到R中的最佳方式是什么?,r,bigdata,R,Bigdata,我有一个20GB的数据集,我必须在R中使用它。现在,我读了几篇文章如何处理这个问题,但我不知道在R中读取20GB数据的最佳和最有效的方法是什么 值得一提的是,我不需要所有的数据,因此在继续构建模型之前,我必须过滤/清理数据 用块将数据集读入R是一个好主意吗?什么是将数据读入R的最佳方式 我希望有人能帮助我 亲切问候, Matthijs可以在不同的部分加载数据。就像你在评论中建议的那样,你可以选择10000行,然后再选择10000行,以此类推 由于您使用的是.csv文件,我建议您使用read.cs

我有一个20GB的数据集,我必须在R中使用它。现在,我读了几篇文章如何处理这个问题,但我不知道在R中读取20GB数据的最佳和最有效的方法是什么

值得一提的是,我不需要所有的数据,因此在继续构建模型之前,我必须过滤/清理数据

用块将数据集读入R是一个好主意吗?什么是将数据读入R的最佳方式

我希望有人能帮助我

亲切问候,


Matthijs可以在不同的部分加载数据。就像你在评论中建议的那样,你可以选择10000行,然后再选择10000行,以此类推

由于您使用的是.csv文件,我建议您使用
read.csv()
函数

例如:


datadata.table
软件包中的
fread
功能在速度和效率方面可能是现成功能的最佳选择。正如前面提到的,您仍然可以包含
nrows
skip
参数来读取数据片段

除非你的电脑有20GB的内存,否则你不能这么做。嗨,蒂姆,我只有8GB的内存。但我读过类似的东西是可能的,比如读10000行,然后清洗它,然后读下10000行等等。是的,这是可能的。我认为R有一个
readLines()
函数,可能会对您有所帮助。您也可以尝试一下“vroom”软件包:它工作得很好,尽管我从未尝试过使用20Gb的文件。值得一试!一些基准测试:并非所有操作都应该在R中完成。您可以将数据加载到SQL数据库中,或者在读入之前使用命令行工具(grep/awk)减小CSV的大小
read.csv.sql
允许您将csv读入SQLlite数据库,并对其运行查询,将结果返回给R。