从可搜索的pdf中读取,无需ocr

从可搜索的pdf中读取,无需ocr,pdf,Pdf,我目前正在使用扫描仪将我的PDF转换为可搜索的PDF。OCR已经处理好了,因为我可以在PDF中使用ctrl-f 但是,我如何从我的程序中获取OCR的内容呢 我愿意使用java、ruby,问题是编程语言不可知。通过阅读文件是否可以公开访问OCR文本?不确定您的OCR软件如何创建PDF,但您是否可以使用或工具(如或)从生成的PDF中提取文本?谢谢。Itext显然也可以做到,只是让它工作了。我实际上是想先包含Itext,但一定是在按“添加”之前意外地将它编辑掉了。不过,为了完整起见,我将它添加到了答案

我目前正在使用扫描仪将我的PDF转换为可搜索的PDF。OCR已经处理好了,因为我可以在PDF中使用ctrl-f

但是,我如何从我的程序中获取OCR的内容呢


我愿意使用java、ruby,问题是编程语言不可知。通过阅读文件是否可以公开访问OCR文本?

不确定您的OCR软件如何创建PDF,但您是否可以使用或工具(如或)从生成的PDF中提取文本?

谢谢。Itext显然也可以做到,只是让它工作了。我实际上是想先包含Itext,但一定是在按“添加”之前意外地将它编辑掉了。不过,为了完整起见,我将它添加到了答案中。很高兴它有帮助!