Python 2.7 将千兆字节文件解析为一个全局字典的并发编程_Python 2.7_Concurrency_Python Multithreading_Large Data_Concurrentdictionary

Python 2.7 将千兆字节文件解析为一个全局字典的并发编程

python-2.7 concurrency

Python 2.7 将千兆字节文件解析为一个全局字典的并发编程,python-2.7,concurrency,python-multithreading,large-data,concurrentdictionary,Python 2.7,Concurrency,Python Multithreading,Large Data,Concurrentdictionary,我有一个2Gig文本文件。在我的程序中，我使用mmap逐行阅读，并形成一个有序的字典。完成这个节目几乎需要40分钟。我正在考虑采用并发方式来减少时间。程序将根据文件大小将文件分成50个部分。并且，一次将数据块传递给每个线程。并且，50个线程解析的所有块都将更新一个全局字典。区块中可能存在重复数据，这是必要的。我担心的是，会不会有任何数据丢失，或者这段代码会有什么后果。提供建议或替代解决方案。提前感谢提供一些示例代码并展示您的研究成果。@jdv我无法将代码粘贴到这里。它基本上是读取以

我有一个2Gig文本文件。在我的程序中，我使用mmap逐行阅读，并形成一个有序的字典。完成这个节目几乎需要40分钟。我正在考虑采用并发方式来减少时间。程序将根据文件大小将文件分成50个部分。并且，一次将数据块传递给每个线程。并且，50个线程解析的所有块都将更新一个全局字典。区块中可能存在重复数据，这是必要的。我担心的是，会不会有任何数据丢失，或者这段代码会有什么后果。提供建议或替代解决方案。

提前感谢

提供一些示例代码并展示您的研究成果。@jdv我无法将代码粘贴到这里。它基本上是读取以字节为单位的文件大小。除以50。为每个数据块启动50个线程。它将调用一个func，它将更新一个全局dict。您能解释一下“块中重复的数据，这是必要的”注释吗？就像两个不同的值有相同的键一样？完全一样。两个值的键相同。该键可以具有许多其他线程的值。这就是为什么我把它作为一本全球词典。我已经将全球dict接受列表作为他们的价值观。所以他们只是附加。这方面不用担心。我主要担心的是“数据丢失”或者它会起作用吗？如果你不能把一些示例代码作为文本放在问题中，我们所能提供的帮助是有限的。这个网站最适合使用