如何在R中基于ff向量(实际上是一种因子类型)拆分数据帧?

如何在R中基于ff向量(实际上是一种因子类型)拆分数据帧?,r,database,csv,R,Database,Csv,伙计们。 所以,我现在的问题是: 我在一台8GB内存的PC上,努力加载5GB的CSV文件。我尝试了各种选项,但最终通过read.csv.ffdf函数从ff包导入了它。 现在的问题是,无法分析df。一切都太慢了,这就是它工作的时候。最初,我使用以下方法随机抽取样本: enemsample <- enem[bigsample(x=8000000, size=10000, replace = FALSE), ] df是我的数据集和var用于拆分银行的变量 现在我得到以下警告,28次(因子变量中

伙计们。 所以,我现在的问题是: 我在一台8GB内存的PC上,努力加载5GB的CSV文件。我尝试了各种选项,但最终通过
read.csv.ffdf
函数从
ff
包导入了它。 现在的问题是,无法分析df。一切都太慢了,这就是它工作的时候。最初,我使用以下方法随机抽取样本:

enemsample <- enem[bigsample(x=8000000, size=10000, replace = FALSE), ]
df
是我的数据集和
var
用于拆分银行的变量

现在我得到以下警告,28次(因子变量中的级别数量):

这似乎是显而易见的原因,因为ff使用的变量类型与R通常不同。但是,发现问题并没有让我离解决问题更近一步

有没有关于如何解决这个问题的想法,更好的数据帧采样方法,或者更好的处理这些大文件的方法


提前感谢。

使用数字或字符变量代替因子?使用数字或字符变量代替因子?
library(caTools)
train_rows = sample.split(df$var, SplitRatio=0.1)
train = df[ train_rows,]
test  = df[-train_rows,]
1: In which(Y == U[iU]) :
  Incompatible methods ("==.ff_vector", "Ops.factor") for "=="