Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/303.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 工具箱及;在'中提取文本边界的方法;可搜索pdf';_Java_Pdf - Fatal编程技术网

Java 工具箱及;在'中提取文本边界的方法;可搜索pdf';

Java 工具箱及;在'中提取文本边界的方法;可搜索pdf';,java,pdf,Java,Pdf,我有一个“可搜索的pdf”又名“不可见但可选择文本的图像文件”。(在Acrobat中打开此文件时,系统会提醒我“您正在以PDF/A模式查看此文档”。) 我需要提取文档中每个单词的边框。是否有任何建议的工具包和访问“invisi文本”单词边界框的方法 我更喜欢java中的工具,但非常感谢您的建议。查看iText库:Acrobat的javascript库看起来最简单,尤其是: getPageNthWordQuads 它适用于“可搜索pdf” 如果acrobat javascript库可以作为jav

我有一个“可搜索的pdf”又名“不可见但可选择文本的图像文件”。(在Acrobat中打开此文件时,系统会提醒我“您正在以PDF/A模式查看此文档”。)

我需要提取文档中每个单词的边框。是否有任何建议的工具包和访问“invisi文本”单词边界框的方法


我更喜欢java中的工具,但非常感谢您的建议。

查看iText库:

Acrobat的javascript库看起来最简单,尤其是:

getPageNthWordQuads
它适用于“可搜索pdf”


如果acrobat javascript库可以作为java调用使用,那就太好了。

PdfBox和JPedal还提供文本提取方法。

iText主要用于生成pdf文档。我在api中没有看到任何用于提取加载PDF中文本的边界框信息的内容。是的,你是对的。很抱歉,这是一个错误的方向盘。也许是更好的选择?我下载了JPedal演示jar,但是(1)它导出的xml没有边界框信息;(2)当我进行纯文本提取时,它没有返回“可搜索的”/“invisi-text”(我想它尝试进行OCR?)