Python 2.7 将千兆字节文件解析为一个全局字典的并发编程

Python 2.7 将千兆字节文件解析为一个全局字典的并发编程,python-2.7,concurrency,python-multithreading,large-data,concurrentdictionary,Python 2.7,Concurrency,Python Multithreading,Large Data,Concurrentdictionary,我有一个2Gig文本文件。在我的程序中,我使用mmap逐行阅读,并形成一个有序的字典。完成这个节目几乎需要40分钟。 我正在考虑采用并发方式来减少时间。 程序将根据文件大小将文件分成50个部分。并且,一次将数据块传递给每个线程。 并且,50个线程解析的所有块都将更新一个全局字典。 区块中可能存在重复数据,这是必要的。 我担心的是,会不会有任何数据丢失,或者这段代码会有什么后果。 提供建议或替代解决方案。 提前感谢提供一些示例代码并展示您的研究成果。@jdv我无法将代码粘贴到这里。它基本上是读取以

我有一个2Gig文本文件。在我的程序中,我使用mmap逐行阅读,并形成一个有序的字典。完成这个节目几乎需要40分钟。 我正在考虑采用并发方式来减少时间。 程序将根据文件大小将文件分成50个部分。并且,一次将数据块传递给每个线程。 并且,50个线程解析的所有块都将更新一个全局字典。 区块中可能存在重复数据,这是必要的。 我担心的是,会不会有任何数据丢失,或者这段代码会有什么后果。 提供建议或替代解决方案。
提前感谢

提供一些示例代码并展示您的研究成果。@jdv我无法将代码粘贴到这里。它基本上是读取以字节为单位的文件大小。除以50。为每个数据块启动50个线程。它将调用一个func,它将更新一个全局dict。您能解释一下“块中重复的数据,这是必要的”注释吗?就像两个不同的值有相同的键一样?完全一样。两个值的键相同。该键可以具有许多其他线程的值。这就是为什么我把它作为一本全球词典。我已经将全球dict接受列表作为他们的价值观。所以他们只是附加。这方面不用担心。我主要担心的是“数据丢失”或者它会起作用吗?如果你不能把一些示例代码作为文本放在问题中,我们所能提供的帮助是有限的。这个网站最适合使用