R 基于另一个数据帧对数据帧的列/类型进行分类并匹配因子级别
我需要一个大的数据帧——250M行x~2000列(1TB)。已根据培训数据(来自C5.0库)开发了拟合。当前,整个数据集无法放入内存中。大数据解决方案正在研究中,但我想知道是否可以将文件切碎并分块运行predict() 基本问题是我想将列类和因子级别从一个数据帧转换到另一个数据帧。更多详情: 问题1:从hadoop读取时,某些列类不匹配 问题#2:通过分块,您可以得到比训练数据集的因子级别更少的因子(因为您正在查看完整集合的子样本)。由于此原因,predict()不希望尝试对缺少因子级别的集合进行评分R 基于另一个数据帧对数据帧的列/类型进行分类并匹配因子级别,r,decision-tree,r-caret,categorical-data,scoring,R,Decision Tree,R Caret,Categorical Data,Scoring,我需要一个大的数据帧——250M行x~2000列(1TB)。已根据培训数据(来自C5.0库)开发了拟合。当前,整个数据集无法放入内存中。大数据解决方案正在研究中,但我想知道是否可以将文件切碎并分块运行predict() 基本问题是我想将列类和因子级别从一个数据帧转换到另一个数据帧。更多详情: 问题1:从hadoop读取时,某些列类不匹配 问题#2:通过分块,您可以得到比训练数据集的因子级别更少的因子(因为您正在查看完整集合的子样本)。由于此原因,predict()不希望尝试对缺少因子级别的集合进
问题:我希望只从训练集中选取类别和因子级别,对列进行分类,然后在大评分集中用级别“重新分级”因子()。是否可以将一个数据帧的列和因子类转换为相同的变量名,以“重新级别”另一个数据帧的变量?我想这可以通过一个for循环来完成,从一个帧读取因子并将其应用到另一个帧。但是对于所有的类来说,这需要很多if语句,这看起来会很混乱。有没有一种方法可以用apply函数或更简单的“一行程序”来实现这一点?您可以使用
chunk$var对chunk使用培训级别是的,但我必须对1800个变量执行此操作。不是最简单的解决方案。mappy(函数(chunkfield,trainfield)因子(chunkfield,级别(trainfield)),chunk,train)