Java 工具箱及;在'中提取文本边界的方法;可搜索pdf';
我有一个“可搜索的pdf”又名“不可见但可选择文本的图像文件”。(在Acrobat中打开此文件时,系统会提醒我“您正在以PDF/A模式查看此文档”。) 我需要提取文档中每个单词的边框。是否有任何建议的工具包和访问“invisi文本”单词边界框的方法Java 工具箱及;在'中提取文本边界的方法;可搜索pdf';,java,pdf,Java,Pdf,我有一个“可搜索的pdf”又名“不可见但可选择文本的图像文件”。(在Acrobat中打开此文件时,系统会提醒我“您正在以PDF/A模式查看此文档”。) 我需要提取文档中每个单词的边框。是否有任何建议的工具包和访问“invisi文本”单词边界框的方法 我更喜欢java中的工具,但非常感谢您的建议。查看iText库:Acrobat的javascript库看起来最简单,尤其是: getPageNthWordQuads 它适用于“可搜索pdf” 如果acrobat javascript库可以作为jav
我更喜欢java中的工具,但非常感谢您的建议。查看iText库:Acrobat的javascript库看起来最简单,尤其是:
getPageNthWordQuads
它适用于“可搜索pdf”
如果acrobat javascript库可以作为java调用使用,那就太好了。PdfBox和JPedal还提供文本提取方法。iText主要用于生成pdf文档。我在api中没有看到任何用于提取加载PDF中文本的边界框信息的内容。是的,你是对的。很抱歉,这是一个错误的方向盘。也许是更好的选择?我下载了JPedal演示jar,但是(1)它导出的xml没有边界框信息;(2)当我进行纯文本提取时,它没有返回“可搜索的”/“invisi-text”(我想它尝试进行OCR?)