Linux 如何根据位置从PDF中提取文本？_Linux_Pdf_Pdfminer

Linux 如何根据位置从PDF中提取文本？

linux pdf

Linux 如何根据位置从PDF中提取文本？,linux,pdf,pdfminer,Linux,Pdf,Pdfminer,我有多个PDF，我想从它们的第一页中提取特定区域的文本。因此，假设我有PDF中文本的边界框坐标，如何使用命令行提取该文本我做了一些研究，发现PDFMiner和PDFBox可以做到这一点。但是PDFMiner的文档记录非常少有人能告诉我如何使用PDFMiner进行此操作吗？或者你可以提出其他的解决方案吗 PS：我在Linux终端上您可以使用PDFBox 这里rectange是java.awt包的矩形类的对象你可以用PDFBox 这里rectange是java.awt包的矩形类的对象 pd

我有多个PDF，我想从它们的第一页中提取特定区域的文本。因此，假设我有PDF中文本的边界框坐标，如何使用命令行提取该文本

我做了一些研究，发现PDFMiner和PDFBox可以做到这一点。但是PDFMiner的文档记录非常少

有人能告诉我如何使用PDFMiner进行此操作吗？或者你可以提出其他的解决方案吗

PS：我在Linux终端上

您可以使用PDFBox

这里rectange是java.awt包的矩形类的对象

你可以用PDFBox

这里rectange是java.awt包的矩形类的对象

pdftotext

（采用基于Poppler的最新版本之一）允许您定义要从中提取文本的页面区域

试试这个：

pdftotext    \
  -f 5       \
  -l 7       \
  -x 200     \
  -y 700     \
  -W 144     \
  -H 80      \
   input.pdf \
   output.txt

它选择页面范围5-7，一个宽度为144点（

72点==1英寸）、高度为80点（左上角位于x坐标200处）和y坐标700处的矩形。
pdftotext
（采用基于Poppler的最新版本之一）允许您定义要从中提取文本的页面区域
试试这个：
pdftotext    \
  -f 5       \
  -l 7       \
  -x 200     \
  -y 700     \
  -W 144     \
  -H 80      \
   input.pdf \
   output.txt

它选择页面范围5-7，矩形的宽度=144点（72点==1英寸
），高度=80点，其中左上角位于x坐标200处，y坐标700处。
Wow！智能解决方案。我从未想过使用pdftotext
。这很好用。谢谢。我已经对这个答案投了赞成票，也接受了这个答案。也许可以刷新你的页面或者其他什么。是的。我在没有实际测试的情况下对它进行了升级。经过测试，我终于接受了。哇！智能解决方案。我从未想过使用pdftotext。这很好用。谢谢。我已经对这个答案投了赞成票，也接受了这个答案。也许可以刷新你的页面或者其他什么。是的。我在没有实际测试的情况下对它进行了升级。经过测试，我终于接受了。
pdftotext    \
  -f 5       \
  -l 7       \
  -x 200     \
  -y 700     \
  -W 144     \
  -H 80      \
   input.pdf \
   output.txt