磁盘操作最少的大数据-MapReduce

磁盘操作最少的大数据-MapReduce,mapreduce,analytics,hive,hdfs,bigdata,Mapreduce,Analytics,Hive,Hdfs,Bigdata,我需要处理远程服务器上数千个文件中的10TB文本。我想在本地机器上用3GB RAM和50GB HDD处理它们。我需要一个抽象层从远程服务器按需下载文件,处理它们(mapreduce),然后丢弃它们,加载更多的文件 关于HDFS,我需要将它们加载到HDFS,然后事情应该简单明了,但我需要自己做内存管理。我想要一些能解决这个问题的东西。类似于HDFS中的远程链接,或者HDFS中指向远程文件的符号链接,该远程文件将下载这些链接并将其加载到内存中。处理这些链接,然后丢弃这些链接,然后移动到更多文件 所以

我需要处理远程服务器上数千个文件中的10TB文本。我想在本地机器上用3GB RAM和50GB HDD处理它们。我需要一个抽象层从远程服务器按需下载文件,处理它们(mapreduce),然后丢弃它们,加载更多的文件

关于HDFS,我需要将它们加载到HDFS,然后事情应该简单明了,但我需要自己做内存管理。我想要一些能解决这个问题的东西。类似于HDFS中的远程链接,或者HDFS中指向远程文件的符号链接,该远程文件将下载这些链接并将其加载到内存中。处理这些链接,然后丢弃这些链接,然后移动到更多文件

所以现在我使用Amplab spark为我做并行处理,但在这个处理级别上它放弃了

我想要一个类似spark的单衬里:

myFilesRDD.map(…).reduce(…)


RDD应该注意它

Map/Reduce用于在一组机器上分解工作。听起来你只有一台机器,你的本地机器。您可能想看看R,因为它有内置的命令来跨网络加载数据。开箱即用,它不会像您描述的facade那样为您提供虚拟内存,但如果您能够容忍自己编写迭代循环并以块的形式加载数据,那么R不仅可以为您提供所需的远程数据加载,R丰富的可用库集合还可以促进您所需的任何类型的处理