在R中处理大数据集的最佳方法_R_Bigdata_Ff_R Bigmemory

在R中处理大数据集的最佳方法

在R中处理大数据集的最佳方法,r,bigdata,ff,r-bigmemory,R,Bigdata,Ff,R Bigmemory,我必须在一个大数据集上运行一些回归模型和描述。我有一个大约500个文件（更新：txt文件）的文件夹，我想合并，共250GB 我知道如何合并文件夹中的所有文件，但尽管我在128RAM的服务器上运行它，但内存一直不足我正在寻找有关如何使用R以可管理的方式（如果可能）加载/合并这些文件的任何提示/建议。我一直在研究诸如“ff”和“bigmemory”之类的软件包，这些软件包能为我提供解决方案吗？我建议使用ff和biglm软件包。后者允许您通过在RAM中加载较小的数据块，对存储在磁盘上的整个数据集（使

我必须在一个大数据集上运行一些回归模型和描述。我有一个大约500个文件（更新：txt文件）的文件夹，我想合并，共250GB

我知道如何合并文件夹中的所有文件，但尽管我在128RAM的服务器上运行它，但内存一直不足

我正在寻找有关如何使用R以可管理的方式（如果可能）加载/合并这些文件的任何提示/建议。我一直在研究诸如“ff”和“bigmemory”之类的软件包，这些软件包能为我提供解决方案吗？

我建议使用ff和biglm软件包。后者允许您通过在RAM中加载较小的数据块，对存储在磁盘上的整个数据集（使用ff）运行回归。使用

read.table.ffdf（）

将单独的txt文件转换为磁盘上的ff文件。请参见帮助文件中的示例，了解如何使用

biglm（）

运行回归，不知道您正在使用什么来读取数据，但是读取csv（来自readr）和fread（来自data.table）通常比读取.csv或读取.table快