从Hadoop读取R中的巨大csv文件

从Hadoop读取R中的巨大csv文件,r,csv,hadoop,R,Csv,Hadoop,我试图从Hadoop中读取巨大的(250MB,60万行,60列)CSV文件。我使用的字段分隔符是“@”,我使用的R代码是 PC2009 <- as.matrix(from.dfs("hdfs://..../apps/g00008/moloy/fuzzy/TUSOpsSODetails_2009.csv", make.input.format(format="csv", sep="@", fill=TRUE))$val) PC2009经过编辑以提高可读性,但您确实需

我试图从Hadoop中读取巨大的(250MB,60万行,60列)CSV文件。我使用的字段分隔符是“@”,我使用的R代码是

PC2009 <- as.matrix(from.dfs("hdfs://..../apps/g00008/moloy/fuzzy/TUSOpsSODetails_2009.csv", 
           make.input.format(format="csv", sep="@", fill=TRUE))$val)

PC2009经过编辑以提高可读性,但您确实需要在
-调用中加入该调用,该调用提供了
from.dfs
函数以及任何提供
as.matrix
方法的包,该方法支持'make.input.format'参数(如果该参数不属于该包的一部分)。目前只有不到100万条60列的记录是一个中等大小的数据对象@bondedust。250MB并不是很大
fread
来自package data.table,应该可以很快读取。然而,您显然需要
fill=TRUE
会阻止您使用它。