Openshift Tika服务器未读取PDF中的嵌入图像_Openshift_Tesseract_Apache Tika_Rhel7_Tika Server

Openshift Tika服务器未读取PDF中的嵌入图像

openshift

Openshift Tika服务器未读取PDF中的嵌入图像,openshift,tesseract,apache-tika,rhel7,tika-server,Openshift,Tesseract,Apache Tika,Rhel7,Tika Server,Hi Tika服务器是使用tesseract设置的，但它仍然没有读取PDF中的嵌入图像。尝试使用两个可用的标题，但没有帮助这种情况仅适用于PDF文件。而OCR适用于其他文件类型/图像在这里使用定制的docker容器。奇怪的是，同一个容器部署在另一台机器上工作。是否存在较低级别的问题更新：在比较日志后，OCP似乎正在将自定义HTTP头（如X-Tika…、邮递员令牌转换为X-Tika…、邮递员令牌等）小写。有人能帮我解决可能出现的问题吗？检查 pdf扫描文档将转换为图像，然后发送到tess

Hi Tika服务器是使用tesseract设置的，但它仍然没有读取PDF中的嵌入图像。尝试使用两个可用的标题，但没有帮助

这种情况仅适用于PDF文件。而OCR适用于其他文件类型/图像

在这里使用定制的docker容器。奇怪的是，同一个容器部署在另一台机器上工作。是否存在较低级别的问题

更新： 在比较日志后，OCP似乎正在将自定义HTTP头（如X-Tika…、邮递员令牌转换为X-Tika…、邮递员令牌等）小写。有人能帮我解决可能出现的问题吗？

检查

pdf扫描文档将转换为图像，然后发送到tesseract

似乎OCP将自定义标题小写是问题的原因。 TikaServer 1.25不支持不区分大小写的X-Tika标头

我已经在Tika服务器1.26中修复了它。裁判：

Docker容器的一个要点是，它们包括电池，并且在任何地方运行都一样。。。。您确定在两台计算机上运行相同的容器，并传入相同的环境变量吗？是。虽然其中一个在Kubernetes上运行，另一个在OCP上运行。并且没有额外的环境变量。这个答案不会直接响应tika服务器点，它将两种策略合并在一起：

pdfParserConfig.setExtractInlineImages(true);
pdfParserConfig.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY);`