tesseract ocr pdf-分段错误_Tesseract

tesseract ocr pdf-分段错误

tesseract ocr pdf-分段错误,tesseract,Tesseract,我正在尝试使用tesseract对pdf文件进行OCR，但它显示： Tesseract开源OCR引擎名称到图像类型：错误：无法识别图像类型：upload526.pdf图像：：读取标题：错误：无法读取此图像类型：upload526.pdf tesseract:错误：读取文件失败：upload526.pdf分段错误我需要它来建立一个数据库来搜索手动扫描的PDF（图像）。。。我做错了什么？我读到它支持PDF。。。不知道它是什么版本的tesseract--version或tesseract-v根

我正在尝试使用

tesseract

对pdf文件进行OCR，但它显示：

Tesseract开源OCR引擎名称到图像类型：错误：无法识别图像类型：upload526.pdf图像：：读取标题：错误：无法读取此图像类型：upload526.pdf tesseract:错误：读取文件失败：upload526.pdf分段错误

我需要它来建立一个数据库来搜索手动扫描的PDF（图像）。。。我做错了什么？我读到它支持PDF。。。不知道它是什么版本的tesseract--version或

tesseract-v

根本不起作用。

tesseract不阅读PDF。首先需要将其转换为图像格式（TIFF、PNG）。尝试GhostScript、ImageMagick、编程等等。

您可以尝试以下内容（ImageMagick库）：

convert -density 300 file.pdf -depth 8 file.tiff  
tesseract file.tiff output