如何在R中基于ff向量（实际上是一种因子类型）拆分数据帧？_R_Database_Csv

如何在R中基于ff向量（实际上是一种因子类型）拆分数据帧？

r database csv

如何在R中基于ff向量（实际上是一种因子类型）拆分数据帧？,r,database,csv,R,Database,Csv,伙计们。所以，我现在的问题是：我在一台8GB内存的PC上，努力加载5GB的CSV文件。我尝试了各种选项，但最终通过read.csv.ffdf函数从ff包导入了它。现在的问题是，无法分析df。一切都太慢了，这就是它工作的时候。最初，我使用以下方法随机抽取样本： enemsample <- enem[bigsample(x=8000000, size=10000, replace = FALSE), ] df是我的数据集和var用于拆分银行的变量现在我得到以下警告，28次（因子变量中

伙计们。所以，我现在的问题是：我在一台8GB内存的PC上，努力加载5GB的CSV文件。我尝试了各种选项，但最终通过

read.csv.ffdf

函数从

ff

包导入了它。现在的问题是，无法分析df。一切都太慢了，这就是它工作的时候。最初，我使用以下方法随机抽取样本：

enemsample <- enem[bigsample(x=8000000, size=10000, replace = FALSE), ]

df

是我的数据集和

var

用于拆分银行的变量

现在我得到以下警告，28次（因子变量中的级别数量）：

这似乎是显而易见的原因，因为ff使用的变量类型与R通常不同。但是，发现问题并没有让我离解决问题更近一步

有没有关于如何解决这个问题的想法，更好的数据帧采样方法，或者更好的处理这些大文件的方法

提前感谢。

使用数字或字符变量代替因子？使用数字或字符变量代替因子？

library(caTools)
train_rows = sample.split(df$var, SplitRatio=0.1)
train = df[ train_rows,]
test  = df[-train_rows,]

1: In which(Y == U[iU]) :
  Incompatible methods ("==.ff_vector", "Ops.factor") for "=="