Mapreduce 用于连接数据集的map reduce?

Mapreduce 用于连接数据集的map reduce?,mapreduce,Mapreduce,我有三种不同的解决方案,用文档ID存储文档(搜索引擎、nosql数据库和自行开发的语义索引应用程序) 我正在对所有不同的解决方案运行查询,并希望使用类似于SQLJOIN的方法将它们合并。这意味着我有时可以有3个或更多不同的数据集,我需要在文档id上加入这些数据集 你知道Hadoop上的MapReduce或类似的东西是解决这个问题的最好方法吗?这些数据集可以包含从1个文档id到100000的任意位置 谢谢你的时间 对于这样的小数据集,几乎任何东西都可以工作。特别是-我建议使用内存系统,因为所有数据

我有三种不同的解决方案,用文档ID存储文档(搜索引擎、nosql数据库和自行开发的语义索引应用程序)

我正在对所有不同的解决方案运行查询,并希望使用类似于SQLJOIN的方法将它们合并。这意味着我有时可以有3个或更多不同的数据集,我需要在文档id上加入这些数据集

你知道Hadoop上的MapReduce或类似的东西是解决这个问题的最好方法吗?这些数据集可以包含从1个文档id到100000的任意位置


谢谢你的时间

对于这样的小数据集,几乎任何东西都可以工作。特别是-我建议使用内存系统,因为所有数据都可以轻松放入内存。就是这样一种解决方案(在许多其他方面都支持内存完整的MapReduce、SQL等)

如果在加入文档之前需要在文档处理过程中应用大量CPU,那么Hadoop很好。在同一个作业处理文档(在映射函数中)中,您可以相对轻松地使用洗牌过程作为连接引擎
同时,10万个项目的简单连接不需要比普通RDBMS更多的数据