tesseract ocr pdf-分段错误

tesseract ocr pdf-分段错误,tesseract,Tesseract,我正在尝试使用tesseract对pdf文件进行OCR,但它显示: Tesseract开源OCR引擎名称到图像类型:错误:无法识别 图像类型:upload526.pdf图像::读取标题:错误:无法读取此 图像类型:upload526.pdf tesseract:错误:读取文件 失败:upload526.pdf分段错误 我需要它来建立一个数据库来搜索手动扫描的PDF(图像)。。。我做错了什么?我读到它支持PDF。。。不知道它是什么版本的tesseract--version或tesseract-v根

我正在尝试使用
tesseract
对pdf文件进行OCR,但它显示:

Tesseract开源OCR引擎名称到图像类型:错误:无法识别 图像类型:upload526.pdf图像::读取标题:错误:无法读取此 图像类型:upload526.pdf tesseract:错误:读取文件 失败:upload526.pdf分段错误


我需要它来建立一个数据库来搜索手动扫描的PDF(图像)。。。我做错了什么?我读到它支持PDF。。。不知道它是什么版本的tesseract--version或
tesseract-v
根本不起作用。

tesseract不阅读PDF。首先需要将其转换为图像格式(TIFF、PNG)。尝试GhostScript、ImageMagick、编程等等。

您可以尝试以下内容(ImageMagick库):

convert -density 300 file.pdf -depth 8 file.tiff  
tesseract file.tiff output