Parallel processing 处理流到同一数据集的查询时高效的MapReduce

Parallel processing 处理流到同一数据集的查询时高效的MapReduce,parallel-processing,mapreduce,distributed-computing,Parallel Processing,Mapreduce,Distributed Computing,我有一个巨大的、静态的数据集,我有一个应用于它的函数 f的形式是reduce(map(f,dataset)),因此我将使用MapReduce框架。但是,我不想在每次请求时分散数据(理想情况下,我希望利用索引来加速f)。有一个MapReduce实现可以解决这种一般情况吗 我已经看了一下,也许它能做到这一点,但似乎解决了一个稍有不同的情况,而且代码还不可用。Hadoop的MapReduce(以及所有其他受谷歌启发的MapReduce骨架)并没有一直分散数据

我有一个巨大的、静态的数据集,我有一个应用于它的函数

f的形式是reduce(map(f,dataset)),因此我将使用MapReduce框架。但是,我不想在每次请求时分散数据(理想情况下,我希望利用索引来加速f)。有一个MapReduce实现可以解决这种一般情况吗

我已经看了一下,也许它能做到这一点,但似乎解决了一个稍有不同的情况,而且代码还不可用。

Hadoop的MapReduce(以及所有其他受谷歌启发的MapReduce骨架)并没有一直分散数据