Python 作为mincemeat.py数据源的大型文件_Python_Mapreduce_Mincemeat

Python 作为mincemeat.py数据源的大型文件

python mapreduce

Python 作为mincemeat.py数据源的大型文件,python,mapreduce,mincemeat,Python,Mapreduce,Mincemeat,我计划在~100GB文件上使用mincemeat.py执行map reduce任务。在看过mincemeat的示例代码之后，我似乎需要输入一个内存字典作为数据源。那么，提供我的大文件作为mincemeat数据源的正确方法是什么链接到mincemeat:查看示例和概念，我认为您最好：为数据源生成迭代器在多个服务器上将文件拆分为多个非常大的文件，然后合并结果尝试了迭代器吗？看来我必须事先创建一个完整的字典。你想让我试试迭代器吗？但是，我需要将文件内容添加到dict中。这是我有点困惑的地方。

我计划在~100GB文件上使用mincemeat.py执行map reduce任务。在看过mincemeat的示例代码之后，我似乎需要输入一个内存字典作为数据源。那么，提供我的大文件作为mincemeat数据源的正确方法是什么

链接到mincemeat:

查看示例和概念，我认为您最好：

为数据源生成迭代器

在多个服务器上将文件拆分为多个非常大的文件，然后

合并结果

尝试了迭代器吗？看来我必须事先创建一个完整的字典。你想让我试试迭代器吗？但是，我需要将文件内容添加到dict中。这是我有点困惑的地方。引用github页面：datasource:…您可以使用dict或实现迭代器协议（uu iter_uu（）和next（））的任何其他数据结构来返回所有密钥。。。似乎这是处理大型文件的唯一合理方法，尽管我和你一样想知道确切的实际解决方案：）但找到解决方案时别忘了修复解决方案，friend@dmitry，是的，我一定会的。谢谢你的建议，让我朝这个方向检查一下。