R超大数据集的内存问题

R超大数据集的内存问题,r,R,我需要对一个3.5gb数据集执行回归分析,该数据集由CSV格式的数字和分类数据集组成,包括180万条记录和1000个变量/列,主要包含0和1以及一些分类和数字值。请参阅数据快照 我最初应该直接在这个数据集上执行集群,但我不断地得到许多与内存相关的错误,尽管我在一个远程虚拟机64位Windows Server 2012 R2上运行它,该虚拟机有64gb的RAM。所以我想做一些因子分析来找出变量之间的相关性,这样我就可以尽可能地将列的数量减少到600-700。任何其他想法都值得赞赏,因为我对数据分析

我需要对一个3.5gb数据集执行回归分析,该数据集由CSV格式的数字和分类数据集组成,包括180万条记录和1000个变量/列,主要包含0和1以及一些分类和数字值。请参阅数据快照

我最初应该直接在这个数据集上执行集群,但我不断地得到许多与内存相关的错误,尽管我在一个远程虚拟机64位Windows Server 2012 R2上运行它,该虚拟机有64gb的RAM。所以我想做一些因子分析来找出变量之间的相关性,这样我就可以尽可能地将列的数量减少到600-700。任何其他想法都值得赞赏,因为我对数据分析非常幼稚

我尝试过各种软件包,如ff、bigmemory、biganalytics、biglm、FactoMineR、Matrix等,但都没有成功。始终遇到“无法分配大小的向量…”或已达到最大分配大小65535MB的其他一些错误

你们能告诉我一个解决方案吗?因为我觉得内存应该是个问题,因为64gb的内存应该足够了。 数据集快照:

SEX AGE Adm Adm     LOS DRG DRG RW  Total   DC Disp Mortality   AAADXRUP
M   17  PSY         291 887 0.8189  31185    PDFU         0           0
M   57  PSY ER       31 884 0.9529  54960.4  SNF          0           0
F   23  AC  PH        3 775 0.5283  9497.7   HOM          0           0
F   74  AC  PH        3 470 2.0866  23020.3  SNF          0           0

死亡后还有其他列,其中大部分包含0或1

65535MB约为65.5GB。内存是一个问题。那么您认为需要多少内存,因为当前数据只有3个月,我可能需要处理6个月或1年的数据,这将是当前3.5Gb数据集大小的两倍或四倍。