Multithreading 并行写入xlsxwriter工作表比顺序写入慢

Multithreading 并行写入xlsxwriter工作表比顺序写入慢,multithreading,python-3.x,parallel-processing,xlsxwriter,Multithreading,Python 3.x,Parallel Processing,Xlsxwriter,我想同时写入同一工作簿的多个工作表。 代码如下: import threading import xlsxwriter import time def write_to_w1(w1, data): print('task1 executing....') for row, item in enumerate(data): w1.write(row, 0, item, row_format) def write_to_w2(w2, data): pri

我想同时写入同一工作簿的多个工作表。 代码如下:

import threading
import xlsxwriter
import time


def write_to_w1(w1, data):
    print('task1 executing....')
    for row, item in enumerate(data):
        w1.write(row, 0, item, row_format)

def write_to_w2(w2, data):
    print('task2 executing....')
    for row, item in enumerate(data):
        w2.write(row, 0, item, row_format)

def write_to_w3(w3, data):
    print('task3 executing....')
    for row, item in enumerate(data):
        w3.write(row, 0, item, row_format)


start = time.time()
data1 = [i for i in range(0,500000)]
data2 = [i for i in range(0,500000)]
data3 = [i for i in range(0,500000)]

workbook = xlsxwriter.Workbook('~/Desktop/threading.xlsx')
row_format = workbook.add_format({'bold': False, 'align': 'left', 'text_wrap': True, 'valign': 'vcenter'})
w1 = workbook.add_worksheet('w1')
w2 = workbook.add_worksheet('w2')
w3 = workbook.add_worksheet('w3')

t1 = threading.Thread(target=write_to_w1, args=(w1, data1), name='t1')
t2 = threading.Thread(target=write_to_w2, args=(w2, data2), name='t2')
t3 = threading.Thread(target=write_to_w3, args=(w3, data3), name='t3')

# starting thread 1
t1.start()
# starting thread 2
t2.start()
# starting thread 3
t3.start()

# wait until thread 1 is completely executed
t1.join()
# wait until thread 2 is completely executed
t2.join()
# wait until thread 3 is completely executed
t3.join()

# both threads completely executed
print("Done!")
workbook.close()
end = time.time()
print('total time ==>', end-start)
在使用顺序执行进行基准测试时,并行版本的执行时间约为52秒,顺序版本的执行时间约为50秒


是什么导致性能下降?同步是问题还是写入单个工作簿是问题?

在正常操作中,xlsxwriter将数据存储在内存中,并在
close()
阶段将数据写入文件,然后压缩这些文件。在任何相当大的xlsxwriter程序中,文件写入操作占执行时间的大部分

您看不到加速的原因可能是由于线程在到达程序的
close()
部分时已重新连接

我认为在构造函数中使用
{'constant_memory':True}
可能会从线程版本获得更好的性能,因为它使用中间文件而不是内存。但是,如果使用您的程序进行快速测试,则不会

加速大型xlsxwriter程序的更好方法是使用。对于程序的非线程版本,参考系统的执行时间从46.7s(Python2)增加到8.2s(PyPy),或者快6倍


事实上,pypy的性能接近于xlsxwriter的纯C实现,对于更大的数据集,其速度大约是Python版本的10倍。

我不确定这算不算降级。时间跨度足够长,其他过程可能会干扰,我不确定百分比差异是否显著。顺便问一下,您的基准测试是什么?您总共运行了多少次,每个类别中运行最快的是什么?实际的方法是依次调用函数。运行次数只有一次。虽然我确实运行了多次以再次检查。每次都是一样的写少量的数据,比如说需要1秒的时间,运行100次,然后选择最小值,这就是python的一个限制。如果用openpyxl替换xlsxwriter,您认为性能会如何?openpyxl和xlsxwriter的性能应该大致相同。使用pypy,执行时间将减少到17秒(快约3倍)