Python 2.7 删除完全重复的图像

Python 2.7 删除完全重复的图像,python-2.7,image-processing,hash,Python 2.7,Image Processing,Hash,我有一个文件夹,里面有大约20000张图像。我想删除完全重复的图像。我的计划是使用MD5计算图像的哈希值,然后删除具有精确哈希值的图像。但是比较一张图像和另20000张图像的哈希值要花很多时间。请建议我优化的解决方案,这样我可以加快这个过程并删除重复的图像。收集哈希和相关文件名,按哈希排序,迭代列表删除重复项。正如@RogerRowland所建议的,但实际上首先使用GNU并行计算哈希-类似于并行md5sum{}:*:.jpg>hashes.txt取决于您的操作系统。如果文件大小可能不同,您可能还

我有一个文件夹,里面有大约20000张图像。我想删除完全重复的图像。我的计划是使用MD5计算图像的哈希值,然后删除具有精确哈希值的图像。但是比较一张图像和另20000张图像的哈希值要花很多时间。请建议我优化的解决方案,这样我可以加快这个过程并删除重复的图像。

收集哈希和相关文件名,按哈希排序,迭代列表删除重复项。正如@RogerRowland所建议的,但实际上首先使用GNU并行计算哈希-类似于并行md5sum{}:*:.jpg>hashes.txt取决于您的操作系统。如果文件大小可能不同,您可能还希望查看此处和此处,首先按大小排序,然后比较相同大小组中的哈希值。