Python 作为mincemeat.py数据源的大型文件

Python 作为mincemeat.py数据源的大型文件,python,mapreduce,mincemeat,Python,Mapreduce,Mincemeat,我计划在~100GB文件上使用mincemeat.py执行map reduce任务。在看过mincemeat的示例代码之后,我似乎需要输入一个内存字典作为数据源。那么,提供我的大文件作为mincemeat数据源的正确方法是什么 链接到mincemeat:查看示例和概念,我认为您最好: 为数据源生成迭代器 在多个服务器上将文件拆分为多个非常大的文件,然后 合并结果 尝试了迭代器吗?看来我必须事先创建一个完整的字典。你想让我试试迭代器吗?但是,我需要将文件内容添加到dict中。这是我有点困惑的地方。

我计划在~100GB文件上使用mincemeat.py执行map reduce任务。在看过mincemeat的示例代码之后,我似乎需要输入一个内存字典作为数据源。那么,提供我的大文件作为mincemeat数据源的正确方法是什么


链接到mincemeat:

查看示例和概念,我认为您最好:

  • 为数据源生成迭代器
  • 在多个服务器上将文件拆分为多个非常大的文件,然后
  • 合并结果

  • 尝试了迭代器吗?看来我必须事先创建一个完整的字典。你想让我试试迭代器吗?但是,我需要将文件内容添加到dict中。这是我有点困惑的地方。引用github页面:datasource:…您可以使用dict或实现迭代器协议(uu iter_uu()和next())的任何其他数据结构来返回所有密钥。。。似乎这是处理大型文件的唯一合理方法,尽管我和你一样想知道确切的实际解决方案:)但找到解决方案时别忘了修复解决方案,friend@dmitry,是的,我一定会的。谢谢你的建议,让我朝这个方向检查一下。