从pdf获取文本位置_Pdf_Itext_Pdfbox_Pdf2htmlex

从pdf获取文本位置

pdf itext

从pdf获取文本位置,pdf,itext,pdfbox,pdf2htmlex,Pdf,Itext,Pdfbox,Pdf2htmlex,我想知道pdf页面中所有单词的位置。我一直试图在网上找到一些东西，但是找不到。有人能帮我使用哪个库（最好是java平台中的库）吗？看看本教程：基本上，使用PDFBox，您可以使用 InputStream is = yourPDFDocument.getDocumentCatalog().getPages().get(yourPage).getContents(); 然后，搜索您要查找的xytd行。我确信有一种更简单的方法可以做到这一点，但由于我经常处理项目的内容流，我只知道这种方法。搜索

我想知道pdf页面中所有单词的位置。我一直试图在网上找到一些东西，但是找不到。有人能帮我使用哪个库（最好是java平台中的库）吗？

看看本教程：

基本上，使用PDFBox，您可以使用

InputStream is = yourPDFDocument.getDocumentCatalog().getPages().get(yourPage).getContents();

然后，搜索您要查找的xytd
行。

我确信有一种更简单的方法可以做到这一点，但由于我经常处理项目的内容流，我只知道这种方法。
搜索更多详细信息

我希望这将对您有所帮助：）

您可以使用，但不幸的是，文档没有维护，因此很难使其更有趣的方面发挥作用。但是，要仅查看文本位置，可以使用简单文本模式

/textricator.bat text--pages=2 xxx.pdf
#输出是文档的一长串CSV属性，包括OCR读取文本及其x、y坐标。

这类问题通常会被标记。在此之前，请在PDFBox中查找PrintTextLocations示例。在2.0版的资料中，还有DrawPrintTextLocations的例子，在类固醇上也是如此。我期待着逐行阅读pdf。如果你知道一本书/一份文件，你能帮我提供一个链接吗？我的想法是使用x轴通过知道字符的位置来逐行读取字符。这是一个不同的问题。要逐行读取，只需使用PDFTextStripper类。（A） Td操作不是定位文本的唯一方法。（B） Td操作的参数可能会进行变换，因此不包含OP搜索的坐标。（C）您只查看页面内容流，完全忽略表单XObject的内容流。（D）对于使用PdfBox提取具有位置的文本，应该从

PDFTextStripper

类派生一个解决方案。