如何使用java比较大量pdf文件并获得唯一的文件集?

如何使用java比较大量pdf文件并获得唯一的文件集?,java,pdf,pdfbox,Java,Pdf,Pdfbox,我需要一个API,它可以帮助处理大量的pdf文件,比如说100到1000个,然后pdf文件需要以一种方式分组,以便独特类型的文件应该分组在单独的文件夹中 我了解pdflib 有人能帮我吗?我在这篇文章中回答了同样的问题。如果你有任何问题,可以在评论中留言:这个“类型”是什么?我不明白你的意思。你的意思是,阅读一大堆PDF文件,以某种方式找出它们是什么类型,然后把“简历”放在一个目录里,把“付款收据”放在另一个目录里,等等?@OlivierCroisier完全一样。那么我会去计算一个简单的文件散列

我需要一个API,它可以帮助处理大量的pdf文件,比如说100到1000个,然后pdf文件需要以一种方式分组,以便独特类型的文件应该分组在单独的文件夹中

我了解pdflib


有人能帮我吗?

我在这篇文章中回答了同样的问题。如果你有任何问题,可以在评论中留言:

这个“类型”是什么?我不明白你的意思。你的意思是,阅读一大堆PDF文件,以某种方式找出它们是什么类型,然后把“简历”放在一个目录里,把“付款收据”放在另一个目录里,等等?@OlivierCroisier完全一样。那么我会去计算一个简单的文件散列。对于每个文件,计算其MD5散列,然后维护一个映射,其中键是散列,值是具有该散列的所有文件的列表。然后,在处理所有文件时,为地图中的每个键创建一个目录,并将所有相关文件复制或移动到该目录中。