Python 如何在R中加载和处理超大数据文件

Python 如何在R中加载和处理超大数据文件,python,r,statistics,bigdata,Python,R,Statistics,Bigdata,我必须在一个项目中处理一些非常大的数据文件,这些文件确实很大,每个文件的大小都>50G。这些文件的格式各不相同: type1 vaue1:123 type2 vaue1:234 type2 vaue1:234 type1 vaue1:234 type3 vaue1:234 ....... 我想找出一个特定类型的值,并计算该类型的平均值和中值。 我使用python一个接一个地读取数据文件,最后进行计算,但速度非常慢。我想用R来帮助我,但我想知道R是否能处理这些大数据。我怀疑R能否将这些

我必须在一个项目中处理一些非常大的数据文件,这些文件确实很大,每个文件的大小都>50G。这些文件的格式各不相同:

type1  vaue1:123
type2  vaue1:234
type2  vaue1:234
type1  vaue1:234
type3  vaue1:234
.......
我想找出一个特定类型的值,并计算该类型的平均值和中值。 我使用python一个接一个地读取数据文件,最后进行计算,但速度非常慢。我想用R来帮助我,但我想知道R是否能处理这些大数据。我怀疑R能否将这些数据读入数据帧


如果有人知道使用R或其他工具处理大数据的一些技巧。我现在真的需要一些建议

一种相对快速的读取数据的方法是使用包
data.table中的
fread

d <- fread("myfile.txt", header = FALSE, sep = ":")
summary(d$V2)

d“我真的需要一些建议”不是一个合适的问题(或者,就此而言,根本不是一个问题)。互联网上其他地方有很多使用R处理“大数据”的资源,我建议你做一些研究。