pdf的x、y窗口内的OCR

pdf的x、y窗口内的OCR,pdf,ocr,Pdf,Ocr,我需要找到一个开源或基于linux的实用程序,允许我在安装文件中设置x,y坐标。然后,我想按顺序打开pdf,在文档中查找名字、姓氏和帐号,并使用由姓氏和文件号组成的文件名保存该文件。您可能需要先阅读以下部分答案: 上面的答案不是Linux特有的 大多数PDF文档不需要OCR,因为文本包含在PDF中。最难的部分是提取。Java版本的iText()可能是Linux下提取PDF文本字符串的最佳工具包。另一种选择可能是 如果需要提取的文本实际上是图像,则可能需要将整个PDF页面转换为图像格式(

我需要找到一个开源或基于linux的实用程序,允许我在安装文件中设置x,y坐标。然后,我想按顺序打开pdf,在文档中查找名字、姓氏和帐号,并使用由姓氏和文件号组成的文件名保存该文件。

您可能需要先阅读以下部分答案:

上面的答案不是Linux特有的

大多数PDF文档不需要OCR,因为文本包含在PDF中。最难的部分是提取。Java版本的iText()可能是Linux下提取PDF文本字符串的最佳工具包。另一种选择可能是

如果需要提取的文本实际上是图像,则可能需要将整个PDF页面转换为图像格式(如TIFF),并将其传递到OCR引擎(如Google Tesseract OCR)