Pytorch 与每件物品相比,批量使用transformers标记器是否有显著的速度提升?

Pytorch 与每件物品相比,批量使用transformers标记器是否有显著的速度提升?,pytorch,huggingface-transformers,Pytorch,Huggingface Transformers,在批处理中调用标记器是否比在批处理中的每个项目上调用标记器快得多?e、 g encodings=tokenizer(句子) #vs 编码=[句子中x的标记器(x)] 我最后只是对这两个项目进行了计时,以防其他人对这两个项目感兴趣 %%timeit for _ in range(10**4): tokenizer("Lorem ipsum dolor sit amet, consectetur adipiscing elit.") 785 ms ± 24.5 ms per lo

在批处理中调用标记器是否比在批处理中的每个项目上调用标记器快得多?e、 g

encodings=tokenizer(句子)
#vs
编码=[句子中x的标记器(x)]

我最后只是对这两个项目进行了计时,以防其他人对这两个项目感兴趣

%%timeit
for _ in range(10**4): tokenizer("Lorem ipsum dolor sit amet, consectetur adipiscing elit.")
785 ms ± 24.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%%timeit
tokenizer(["Lorem ipsum dolor sit amet, consectetur adipiscing elit."]*10**4)
266 ms ± 6.52 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

我还建议您确保在可能的情况下使用a以获得进一步的加速。