在R中处理大数据集的最佳方法

在R中处理大数据集的最佳方法,r,bigdata,ff,r-bigmemory,R,Bigdata,Ff,R Bigmemory,我必须在一个大数据集上运行一些回归模型和描述。我有一个大约500个文件(更新:txt文件)的文件夹,我想合并,共250GB 我知道如何合并文件夹中的所有文件,但尽管我在128RAM的服务器上运行它,但内存一直不足 我正在寻找有关如何使用R以可管理的方式(如果可能)加载/合并这些文件的任何提示/建议。我一直在研究诸如“ff”和“bigmemory”之类的软件包,这些软件包能为我提供解决方案吗?我建议使用ff和biglm软件包。后者允许您通过在RAM中加载较小的数据块,对存储在磁盘上的整个数据集(使

我必须在一个大数据集上运行一些回归模型和描述。我有一个大约500个文件(更新:txt文件)的文件夹,我想合并,共250GB

我知道如何合并文件夹中的所有文件,但尽管我在128RAM的服务器上运行它,但内存一直不足


我正在寻找有关如何使用R以可管理的方式(如果可能)加载/合并这些文件的任何提示/建议。我一直在研究诸如“ff”和“bigmemory”之类的软件包,这些软件包能为我提供解决方案吗?

我建议使用ff和biglm软件包。后者允许您通过在RAM中加载较小的数据块,对存储在磁盘上的整个数据集(使用ff)运行回归。使用
read.table.ffdf()
将单独的txt文件转换为磁盘上的ff文件。请参见帮助文件中的示例,了解如何使用
biglm()

运行回归,不知道您正在使用什么来读取数据,但是读取csv(来自readr)和fread(来自data.table)通常比读取.csv或读取.table快