Pdf 是否在S3上存储tesseract OCR培训数据？_Pdf_Heroku_Ocr_Tesseract

Pdf 是否在S3上存储tesseract OCR培训数据？

pdf heroku

Pdf 是否在S3上存储tesseract OCR培训数据？,pdf,heroku,ocr,tesseract,Pdf,Heroku,Ocr,Tesseract,我有一个应用程序托管在Heroku上。我试图从各种PDF中提取文本。我目前正在为此使用tesseract 由于Heroku没有提供那么多的存储空间，而且.traineddata文件很大（需要使用所有文件），是否有可能以某种方式将tessdata语言数据存储在S3上？我还没有找到任何解决办法我所能找到的就是我可以定义--tessdata dir路径，但那是一个目录。遗憾的是，如果不能使所有数据都适合Heroku slug，我不确定Heroku是否适合您的需要。即使你能让它工作，它也会是一个相当大

我有一个应用程序托管在Heroku上。我试图从各种PDF中提取文本。我目前正在为此使用

tesseract

由于Heroku没有提供那么多的存储空间，而且

.traineddata

文件很大（需要使用所有文件），是否有可能以某种方式将

tessdata

语言数据存储在S3上？我还没有找到任何解决办法

我所能找到的就是我可以定义

--tessdata dir路径，但那是一个目录。
遗憾的是，如果不能使所有数据都适合Heroku slug，我不确定Heroku是否适合您的需要。即使你能让它工作，它也会是一个相当大的性能打击
您最好将Tesseract设置为具有自己服务器的API，然后从heroku向该API发送所需的任何内容（或将整个应用程序移动）。根据应用程序其余部分的大小以及Tesseract的增长速度，这可能意味着Tesseract可以以绝对最小的依赖性获得自己的heroku应用程序，或者可能意味着将应用程序的该部分移动到AWS或其他地方。
感谢您的回答，我确实找到了一些解决方案，尽管它们并不完全直截了当。一种解决方案是将文件存储在数据库中，并根据给定操作所需的语言从数据库中提取文件，有点像本地缓存。缓存应该保持相对较小的大小，定期清理很少使用的语言。另一个类似于您所说的。是的，我正在考虑建议一个数据库，但我不确定在开发时间方面是否有成本/收益。再说一次，这两种解决方案似乎都不那么简单，但这是我能看到的唯一两种解决方案，我只是决定不提数据库，我不确定它是否实际可行。API绝对是一种可以实现的方法，所以我使用了它。