Mongodb [使用MRJob]EMR的输入数据是如何跨节点分布的？_Mongodb_Amazon Web Services_Partitioning_Elastic Map Reduce_Mrjob

Mongodb [使用MRJob]EMR的输入数据是如何跨节点分布的？

mongodb amazon-web-services

Mongodb [使用MRJob]EMR的输入数据是如何跨节点分布的？,mongodb,amazon-web-services,partitioning,elastic-map-reduce,mrjob,Mongodb,Amazon Web Services,Partitioning,Elastic Map Reduce,Mrjob,我正在研究使用Yelp的MRJob来使用Amazon的弹性Map Reduce进行计算。在计算密集型工作期间，我需要读写大量数据。每个节点应该只获取一部分数据，我对如何实现这一点感到困惑。目前，我的数据位于MongoDB中，并存储在永久EBS驱动器上当使用EMR时，节点上的数据是如何分解的？如何告诉MRJob将数据划分到哪个键上？将分解步骤保留为隐式：如果打开一个文件或与S3键值存储的连接，它将如何分割键值？它是否假设输入是一个序列，并在此基础上自动对其进行分区也许有人可以解释如何使用。在那

我正在研究使用Yelp的MRJob来使用Amazon的弹性Map Reduce进行计算。在计算密集型工作期间，我需要读写大量数据。每个节点应该只获取一部分数据，我对如何实现这一点感到困惑。目前，我的数据位于MongoDB中，并存储在永久EBS驱动器上

当使用EMR时，节点上的数据是如何分解的？如何告诉MRJob将数据划分到哪个键上？将分解步骤保留为隐式：如果打开一个文件或与S3键值存储的连接，它将如何分割键值？它是否假设输入是一个序列，并在此基础上自动对其进行分区

也许有人可以解释如何使用。在那个示例中，输入是一个文本文件——它是复制到所有节点，还是由一个节点串行读取并以片段形式分发

该示例假定您正在使用文本文件。我不确定您是否可以传入一个参数来使用MongoDB hadoop驱动程序

你想在这里干什么？我正在开发MongoDB hadoop驱动程序，我正在寻找示例和测试用例。

多好的机会啊！：-）所以，MongoDB确实使用MapReduce，但只有当您使用碎片并且需要使用JavaScript（ugh）编程时，它才会并行化。我希望获取数百万条英文文本记录，使用Python库解析它们（2sec/record），然后将它们保存回去。我很乐意与您合作并提供测试示例/代码。我的电子邮件地址在我的个人资料中。我对hadoop还是新手。我不确定python api是如何工作的。你得帮帮我。