磁盘操作最少的大数据-MapReduce_Mapreduce_Analytics_Hive_Hdfs_Bigdata

磁盘操作最少的大数据-MapReduce

mapreduce hive

磁盘操作最少的大数据-MapReduce,mapreduce,analytics,hive,hdfs,bigdata,Mapreduce,Analytics,Hive,Hdfs,Bigdata,我需要处理远程服务器上数千个文件中的10TB文本。我想在本地机器上用3GB RAM和50GB HDD处理它们。我需要一个抽象层从远程服务器按需下载文件，处理它们（mapreduce），然后丢弃它们，加载更多的文件关于HDFS，我需要将它们加载到HDFS，然后事情应该简单明了，但我需要自己做内存管理。我想要一些能解决这个问题的东西。类似于HDFS中的远程链接，或者HDFS中指向远程文件的符号链接，该远程文件将下载这些链接并将其加载到内存中。处理这些链接，然后丢弃这些链接，然后移动到更多文件所以

我需要处理远程服务器上数千个文件中的10TB文本。我想在本地机器上用3GB RAM和50GB HDD处理它们。我需要一个抽象层从远程服务器按需下载文件，处理它们（mapreduce），然后丢弃它们，加载更多的文件

关于HDFS，我需要将它们加载到HDFS，然后事情应该简单明了，但我需要自己做内存管理。我想要一些能解决这个问题的东西。类似于HDFS中的远程链接，或者HDFS中指向远程文件的符号链接，该远程文件将下载这些链接并将其加载到内存中。处理这些链接，然后丢弃这些链接，然后移动到更多文件

所以现在我使用Amplab spark为我做并行处理，但在这个处理级别上它放弃了

我想要一个类似spark的单衬里：

myFilesRDD.map（…）.reduce（…）

RDD应该注意它

Map/Reduce用于在一组机器上分解工作。听起来你只有一台机器，你的本地机器。您可能想看看R，因为它有内置的命令来跨网络加载数据。开箱即用，它不会像您描述的facade那样为您提供虚拟内存，但如果您能够容忍自己编写迭代循环并以块的形式加载数据，那么R不仅可以为您提供所需的远程数据加载，R丰富的可用库集合还可以促进您所需的任何类型的处理