pdf的x、y窗口内的OCR_Pdf_Ocr - Fatal编程技术网

pdf的x、y窗口内的OCR

pdf

pdf的x、y窗口内的OCR,pdf,ocr,Pdf,Ocr,我需要找到一个开源或基于linux的实用程序，允许我在安装文件中设置x，y坐标。然后，我想按顺序打开pdf，在文档中查找名字、姓氏和帐号，并使用由姓氏和文件号组成的文件名保存该文件。您可能需要先阅读以下部分答案：上面的答案不是Linux特有的大多数PDF文档不需要OCR，因为文本包含在PDF中。最难的部分是提取。Java版本的iText（）可能是Linux下提取PDF文本字符串的最佳工具包。另一种选择可能是如果需要提取的文本实际上是图像，则可能需要将整个PDF页面转换为图像格式（

我需要找到一个开源或基于linux的实用程序，允许我在安装文件中设置x，y坐标。然后，我想按顺序打开pdf，在文档中查找名字、姓氏和帐号，并使用由姓氏和文件号组成的文件名保存该文件。

您可能需要先阅读以下部分答案：

上面的答案不是Linux特有的

大多数PDF文档不需要OCR，因为文本包含在PDF中。最难的部分是提取。Java版本的iText（）可能是Linux下提取PDF文本字符串的最佳工具包。另一种选择可能是

如果需要提取的文本实际上是图像，则可能需要将整个PDF页面转换为图像格式（如TIFF），并将其传递到OCR引擎（如Google Tesseract OCR）