Java 如何检测不同类型的PDF
PDF文件扩展名可以通过魔法签名验证:Java 如何检测不同类型的PDF,java,pdf,Java,Pdf,PDF文件扩展名可以通过魔法签名验证:25504446 但是,我想检测PDF是否包含文本或图像(即,PDF是否包含可使用ctrl+f搜索的文本,或者是否包含扫描的文档) 有没有办法做到这一点?从技术上讲,您可以解析PDF文档结构并查找包含文本的元素。我想这需要付出巨大的努力才能实现 因此,您可能希望使用预制的PDF包为您进行解析(PDFBox、BfoPDF或类似的东西)。不过,我认为这需要一些努力来实施 我所知道的最简单的方法是使用一个可以为您提取纯文本的包。Apache TIKA可以做到这一点
25504446
但是,我想检测PDF是否包含文本或图像(即,PDF是否包含可使用ctrl+f搜索的文本,或者是否包含扫描的文档)
有没有办法做到这一点?从技术上讲,您可以解析PDF文档结构并查找包含文本的元素。我想这需要付出巨大的努力才能实现 因此,您可能希望使用预制的PDF包为您进行解析(PDFBox、BfoPDF或类似的东西)。不过,我认为这需要一些努力来实施 我所知道的最简单的方法是使用一个可以为您提取纯文本的包。Apache TIKA可以做到这一点。只要把文件给它,看看你能不能得到些什么
无论如何,很难对同时包含图像和文本的PDF进行分类。iText、PDFBox和其他Java PDF库也提供了从PDF文件中提取文本或图像的功能。使用其中之一的能力,并在考虑没有OCR扫描的PDF(例如,页面上不超过50个非空白字符,但至少有50%的页面覆盖图像)时找到一些标准。这似乎是一个很好的技术。我试试看