Java 工具箱及；在'中提取文本边界的方法；可搜索pdf'；_Java_Pdf

Java 工具箱及；在'中提取文本边界的方法；可搜索pdf'；

java pdf

Java 工具箱及；在'中提取文本边界的方法；可搜索pdf'；,java,pdf,Java,Pdf,我有一个“可搜索的pdf”又名“不可见但可选择文本的图像文件”。（在Acrobat中打开此文件时，系统会提醒我“您正在以PDF/A模式查看此文档”。）我需要提取文档中每个单词的边框。是否有任何建议的工具包和访问“invisi文本”单词边界框的方法我更喜欢java中的工具，但非常感谢您的建议。查看iText库：Acrobat的javascript库看起来最简单，尤其是： getPageNthWordQuads 它适用于“可搜索pdf” 如果acrobat javascript库可以作为jav

我有一个“可搜索的pdf”又名“不可见但可选择文本的图像文件”。（在Acrobat中打开此文件时，系统会提醒我“您正在以PDF/A模式查看此文档”。）

我需要提取文档中每个单词的边框。是否有任何建议的工具包和访问“invisi文本”单词边界框的方法

我更喜欢java中的工具，但非常感谢您的建议。

查看iText库：

Acrobat的javascript库看起来最简单，尤其是：

getPageNthWordQuads

它适用于“可搜索pdf”

如果acrobat javascript库可以作为java调用使用，那就太好了。

PdfBox和JPedal还提供文本提取方法。

iText主要用于生成pdf文档。我在api中没有看到任何用于提取加载PDF中文本的边界框信息的内容。是的，你是对的。很抱歉，这是一个错误的方向盘。也许是更好的选择？我下载了JPedal演示jar，但是（1）它导出的xml没有边界框信息；（2）当我进行纯文本提取时，它没有返回“可搜索的”/“invisi-text”（我想它尝试进行OCR？）