Openshift Tika服务器未读取PDF中的嵌入图像

Openshift Tika服务器未读取PDF中的嵌入图像,openshift,tesseract,apache-tika,rhel7,tika-server,Openshift,Tesseract,Apache Tika,Rhel7,Tika Server,Hi Tika服务器是使用tesseract设置的,但它仍然没有读取PDF中的嵌入图像。尝试使用两个可用的标题,但没有帮助 这种情况仅适用于PDF文件。而OCR适用于其他文件类型/图像 在这里使用定制的docker容器。奇怪的是,同一个容器部署在另一台机器上工作。 是否存在较低级别的问题 更新: 在比较日志后,OCP似乎正在将自定义HTTP头(如X-Tika…、邮递员令牌转换为X-Tika…、邮递员令牌等)小写。有人能帮我解决可能出现的问题吗?检查 pdf扫描文档将转换为图像,然后发送到tess

Hi Tika服务器是使用tesseract设置的,但它仍然没有读取PDF中的嵌入图像。尝试使用两个可用的标题,但没有帮助

这种情况仅适用于PDF文件。而OCR适用于其他文件类型/图像

在这里使用定制的docker容器。奇怪的是,同一个容器部署在另一台机器上工作。 是否存在较低级别的问题

更新: 在比较日志后,OCP似乎正在将自定义HTTP头(如X-Tika…、邮递员令牌转换为X-Tika…、邮递员令牌等)小写。有人能帮我解决可能出现的问题吗?

检查


pdf扫描文档将转换为图像,然后发送到tesseract

似乎OCP将自定义标题小写是问题的原因。 TikaServer 1.25不支持不区分大小写的X-Tika标头

我已经在Tika服务器1.26中修复了它。 裁判:

Docker容器的一个要点是,它们包括电池,并且在任何地方运行都一样。。。。您确定在两台计算机上运行相同的容器,并传入相同的环境变量吗?是。虽然其中一个在Kubernetes上运行,另一个在OCP上运行。并且没有额外的环境变量。这个答案不会直接响应tika服务器点,它将两种策略合并在一起:
pdfParserConfig.setExtractInlineImages(true);
pdfParserConfig.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY);`