从Hadoop读取R中的巨大csv文件_R_Csv_Hadoop

从Hadoop读取R中的巨大csv文件

r csv hadoop

从Hadoop读取R中的巨大csv文件,r,csv,hadoop,R,Csv,Hadoop,我试图从Hadoop中读取巨大的（250MB，60万行，60列）CSV文件。我使用的字段分隔符是“@”，我使用的R代码是 PC2009 <- as.matrix(from.dfs("hdfs://..../apps/g00008/moloy/fuzzy/TUSOpsSODetails_2009.csv", make.input.format(format="csv", sep="@", fill=TRUE))$val) PC2009经过编辑以提高可读性，但您确实需

我试图从Hadoop中读取巨大的（250MB，60万行，60列）CSV文件。我使用的字段分隔符是“@”，我使用的R代码是

PC2009 <- as.matrix(from.dfs("hdfs://..../apps/g00008/moloy/fuzzy/TUSOpsSODetails_2009.csv", 
           make.input.format(format="csv", sep="@", fill=TRUE))$val)

PC2009经过编辑以提高可读性，但您确实需要在库
-调用中加入该调用，该调用提供了from.dfs
函数以及任何提供as.matrix
方法的包，该方法支持'make.input.format'参数（如果该参数不属于该包的一部分）。目前只有不到100万条60列的记录是一个中等大小的数据对象@bondedust。250MB并不是很大fread
来自package data.table，应该可以很快读取。然而，您显然需要fill=TRUE
会阻止您使用它。