Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/joomla/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Mongodb [使用MRJob]EMR的输入数据是如何跨节点分布的?_Mongodb_Amazon Web Services_Partitioning_Elastic Map Reduce_Mrjob - Fatal编程技术网

Mongodb [使用MRJob]EMR的输入数据是如何跨节点分布的?

Mongodb [使用MRJob]EMR的输入数据是如何跨节点分布的?,mongodb,amazon-web-services,partitioning,elastic-map-reduce,mrjob,Mongodb,Amazon Web Services,Partitioning,Elastic Map Reduce,Mrjob,我正在研究使用Yelp的MRJob来使用Amazon的弹性Map Reduce进行计算。在计算密集型工作期间,我需要读写大量数据。每个节点应该只获取一部分数据,我对如何实现这一点感到困惑。目前,我的数据位于MongoDB中,并存储在永久EBS驱动器上 当使用EMR时,节点上的数据是如何分解的?如何告诉MRJob将数据划分到哪个键上?将分解步骤保留为隐式:如果打开一个文件或与S3键值存储的连接,它将如何分割键值?它是否假设输入是一个序列,并在此基础上自动对其进行分区 也许有人可以解释如何使用。在那

我正在研究使用Yelp的MRJob来使用Amazon的弹性Map Reduce进行计算。在计算密集型工作期间,我需要读写大量数据。每个节点应该只获取一部分数据,我对如何实现这一点感到困惑。目前,我的数据位于MongoDB中,并存储在永久EBS驱动器上

当使用EMR时,节点上的数据是如何分解的?如何告诉MRJob将数据划分到哪个键上?将分解步骤保留为隐式:如果打开一个文件或与S3键值存储的连接,它将如何分割键值?它是否假设输入是一个序列,并在此基础上自动对其进行分区


也许有人可以解释如何使用。在那个示例中,输入是一个文本文件——它是复制到所有节点,还是由一个节点串行读取并以片段形式分发

该示例假定您正在使用文本文件。我不确定您是否可以传入一个参数来使用MongoDB hadoop驱动程序


你想在这里干什么?我正在开发MongoDB hadoop驱动程序,我正在寻找示例和测试用例。

多好的机会啊!:-)所以,MongoDB确实使用MapReduce,但只有当您使用碎片并且需要使用JavaScript(ugh)编程时,它才会并行化。我希望获取数百万条英文文本记录,使用Python库解析它们(2sec/record),然后将它们保存回去。我很乐意与您合作并提供测试示例/代码。我的电子邮件地址在我的个人资料中。我对hadoop还是新手。我不确定python api是如何工作的。你得帮帮我。