从pdf获取文本位置

从pdf获取文本位置,pdf,itext,pdfbox,pdf2htmlex,Pdf,Itext,Pdfbox,Pdf2htmlex,我想知道pdf页面中所有单词的位置。我一直试图在网上找到一些东西,但是找不到。有人能帮我使用哪个库(最好是java平台中的库)吗?看看本教程: 基本上,使用PDFBox,您可以使用 InputStream is = yourPDFDocument.getDocumentCatalog().getPages().get(yourPage).getContents(); 然后,搜索您要查找的xytd行。 我确信有一种更简单的方法可以做到这一点,但由于我经常处理项目的内容流,我只知道这种方法。 搜索

我想知道pdf页面中所有单词的位置。我一直试图在网上找到一些东西,但是找不到。有人能帮我使用哪个库(最好是java平台中的库)吗?

看看本教程:

基本上,使用PDFBox,您可以使用

InputStream is = yourPDFDocument.getDocumentCatalog().getPages().get(yourPage).getContents();
然后,搜索您要查找的
xytd
行。

我确信有一种更简单的方法可以做到这一点,但由于我经常处理项目的内容流,我只知道这种方法。
搜索更多详细信息

我希望这将对您有所帮助:)

您可以使用,但不幸的是,文档没有维护,因此很难使其更有趣的方面发挥作用。但是,要仅查看文本位置,可以使用简单文本模式

/textricator.bat text--pages=2 xxx.pdf
#输出是文档的一长串CSV属性,包括OCR读取文本及其x、y坐标。

这类问题通常会被标记。在此之前,请在PDFBox中查找PrintTextLocations示例。在2.0版的资料中,还有DrawPrintTextLocations的例子,在类固醇上也是如此。我期待着逐行阅读pdf。如果你知道一本书/一份文件,你能帮我提供一个链接吗?我的想法是使用x轴通过知道字符的位置来逐行读取字符。这是一个不同的问题。要逐行读取,只需使用PDFTextStripper类。(A) Td操作不是定位文本的唯一方法。(B) Td操作的参数可能会进行变换,因此不包含OP搜索的坐标。(C) 您只查看页面内容流,完全忽略表单XObject的内容流。(D) 对于使用PdfBox提取具有位置的文本,应该从
PDFTextStripper
类派生一个解决方案。