在R中拆分大数据

在R中拆分大数据,r,bigdata,R,Bigdata,我有一个大数据文件(~1GB),我想把它分成更小的文件。我手上有R,打算用它 无法将整个加载到内存中,因为我将收到“无法为xxx的向量分配内存”错误消息 然后,我想使用read.table()函数和参数skip和nrows在中只读取文件的一部分。然后保存到各个文件 为此,我想先知道大文件中的行数,这样我就可以计算出应该设置为单个文件的行数,以及应该拆分成多少个文件 我的问题是:在不将大数据文件完全加载到R中的情况下,如何从中获取行数 假设我只能使用R,所以不能使用任何其他编程语言 多谢各位 计算

我有一个大数据文件(~1GB),我想把它分成更小的文件。我手上有R,打算用它

无法将整个加载到内存中,因为我将收到“无法为xxx的向量分配内存”错误消息

然后,我想使用read.table()函数和参数skip和nrows在中只读取文件的一部分。然后保存到各个文件

为此,我想先知道大文件中的行数,这样我就可以计算出应该设置为单个文件的行数,以及应该拆分成多少个文件

我的问题是:在不将大数据文件完全加载到R中的情况下,如何从中获取行数

假设我只能使用R,所以不能使用任何其他编程语言


多谢各位

计算行数应该很容易——查看本教程(“迭代行”部分)。
要点是使用ireadLines为Windows打开文件的迭代器

fname <- "blah.R"  # example file
res <- system(paste("find /v /c \"\"", fname), intern=T)[[2]]
regmatches(res, gregexpr("[0-9]+$", res))[[1]]
# [1] "39"

fname而不从R调用命令行实用程序?在R中完成任何操作都可以。只是不使用Java、Python或其他编程语言。您的平台是什么?windows使用
find
,linux
wc-l
我的平台是windows。这是一个很好的建议。但请编写一段示例代码来找出问题所在在不链接到外部教程的情况下,删除文件中的行。