R中ff和filehash包之间的差异
我有一个由25列和~1M行组成的数据帧,分为12个文件,现在我需要导入它们,然后使用一些R中ff和filehash包之间的差异,r,import,bigdata,filehash,R,Import,Bigdata,Filehash,我有一个由25列和~1M行组成的数据帧,分为12个文件,现在我需要导入它们,然后使用一些重塑包来进行一些数据管理。每个文件都太大了,我必须寻找一些“非RAM”的导入和数据处理解决方案,目前我不需要做任何回归,我只会有一些关于数据帧的描述性统计数据 我搜索了一下,找到了两个包:ff和filehash,我首先阅读了filehash手册,发现它似乎很简单,只是添加了一些关于将数据帧导入文件的代码,其余的似乎与通常的R操作类似 我还没有尝试过ff,因为它有很多不同的类,我想知道在我真正的工作开始之前是否
重塑包来进行一些数据管理。每个文件都太大了,我必须寻找一些“非RAM”的导入和数据处理解决方案,目前我不需要做任何回归,我只会有一些关于数据帧的描述性统计数据
我搜索了一下,找到了两个包:ff
和filehash
,我首先阅读了filehash
手册,发现它似乎很简单,只是添加了一些关于将数据帧导入文件的代码,其余的似乎与通常的R操作类似
我还没有尝试过ff
,因为它有很多不同的类,我想知道在我真正的工作开始之前是否值得花时间去理解ff
本身。但是filehash
包似乎有一段时间是静态的,关于这个包几乎没有讨论,我想知道filehash
是否变得不那么流行,甚至过时了
有人能帮我选择使用哪个软件包吗?或者有人能告诉我他们之间的区别/优点和缺点吗?谢谢
更新01
我目前正在使用filehash
导入数据帧,并意识到使用filehash
导入的数据帧应视为只读,因为该数据帧中的所有进一步修改都不会存储回文件,除非您再次保存,在我看来这不是很方便,因为我需要提醒自己去储蓄。对此有何评论?您还应该看看bigmemory
。看看数据库解决方案(sqldf,MySQL…)怎么样?Roman,但是我需要对数据进行一些操作,比如melt
和cast
,这些可以使用sqldf
或RSqllite
来完成吗?您的系统上有多少RAM?25 x 1m似乎没有那么大。首先,熔化/浇铸机制是一个巨大的内存浪费,因此即使是中等数据也不适合。