Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/linux/27.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Linux 如何根据位置从PDF中提取文本?_Linux_Pdf_Pdfminer - Fatal编程技术网

Linux 如何根据位置从PDF中提取文本?

Linux 如何根据位置从PDF中提取文本?,linux,pdf,pdfminer,Linux,Pdf,Pdfminer,我有多个PDF,我想从它们的第一页中提取特定区域的文本。 因此,假设我有PDF中文本的边界框坐标,如何使用命令行提取该文本 我做了一些研究,发现PDFMiner和PDFBox可以做到这一点。但是PDFMiner的文档记录非常少 有人能告诉我如何使用PDFMiner进行此操作吗?或者你可以提出其他的解决方案吗 PS:我在Linux终端上 您可以使用PDFBox 这里rectange是java.awt包的矩形类的对象 你可以用PDFBox 这里rectange是java.awt包的矩形类的对象 pd

我有多个PDF,我想从它们的第一页中提取特定区域的文本。 因此,假设我有PDF中文本的边界框坐标,如何使用命令行提取该文本

我做了一些研究,发现PDFMiner和PDFBox可以做到这一点。但是PDFMiner的文档记录非常少

有人能告诉我如何使用PDFMiner进行此操作吗?或者你可以提出其他的解决方案吗

PS:我在Linux终端上

您可以使用PDFBox

这里rectange是java.awt包的矩形类的对象

你可以用PDFBox

这里rectange是java.awt包的矩形类的对象

pdftotext
(采用基于Poppler的最新版本之一)允许您定义要从中提取文本的页面区域

试试这个:

pdftotext    \
  -f 5       \
  -l 7       \
  -x 200     \
  -y 700     \
  -W 144     \
  -H 80      \
   input.pdf \
   output.txt
它选择页面范围5-7,一个宽度为144点(
72点==1英寸)、高度为80点(左上角位于x坐标200处)和y坐标700处的矩形。

pdftotext
(采用基于Poppler的最新版本之一)允许您定义要从中提取文本的页面区域

试试这个:

pdftotext    \
  -f 5       \
  -l 7       \
  -x 200     \
  -y 700     \
  -W 144     \
  -H 80      \
   input.pdf \
   output.txt

它选择页面范围5-7,矩形的宽度=144点(
72点==1英寸
),高度=80点,其中左上角位于x坐标200处,y坐标700处。

Wow!智能解决方案。我从未想过使用
pdftotext
。这很好用。谢谢。我已经对这个答案投了赞成票,也接受了这个答案。也许可以刷新你的页面或者其他什么。是的。我在没有实际测试的情况下对它进行了升级。经过测试,我终于接受了。哇!智能解决方案。我从未想过使用
pdftotext
。这很好用。谢谢。我已经对这个答案投了赞成票,也接受了这个答案。也许可以刷新你的页面或者其他什么。是的。我在没有实际测试的情况下对它进行了升级。经过测试,我终于接受了。
pdftotext    \
  -f 5       \
  -l 7       \
  -x 200     \
  -y 700     \
  -W 144     \
  -H 80      \
   input.pdf \
   output.txt