Pdf 是否在S3上存储tesseract OCR培训数据?

Pdf 是否在S3上存储tesseract OCR培训数据?,pdf,heroku,ocr,tesseract,Pdf,Heroku,Ocr,Tesseract,我有一个应用程序托管在Heroku上。我试图从各种PDF中提取文本。我目前正在为此使用tesseract 由于Heroku没有提供那么多的存储空间,而且.traineddata文件很大(需要使用所有文件),是否有可能以某种方式将tessdata语言数据存储在S3上?我还没有找到任何解决办法 我所能找到的就是我可以定义--tessdata dir路径,但那是一个目录。遗憾的是,如果不能使所有数据都适合Heroku slug,我不确定Heroku是否适合您的需要。即使你能让它工作,它也会是一个相当大

我有一个应用程序托管在Heroku上。我试图从各种PDF中提取文本。我目前正在为此使用
tesseract

由于Heroku没有提供那么多的存储空间,而且
.traineddata
文件很大(需要使用所有文件),是否有可能以某种方式将
tessdata
语言数据存储在S3上?我还没有找到任何解决办法


我所能找到的就是我可以定义
--tessdata dir路径,但那是一个目录。

遗憾的是,如果不能使所有数据都适合Heroku slug,我不确定Heroku是否适合您的需要。即使你能让它工作,它也会是一个相当大的性能打击


您最好将Tesseract设置为具有自己服务器的API,然后从heroku向该API发送所需的任何内容(或将整个应用程序移动)。根据应用程序其余部分的大小以及Tesseract的增长速度,这可能意味着Tesseract可以以绝对最小的依赖性获得自己的heroku应用程序,或者可能意味着将应用程序的该部分移动到AWS或其他地方。

感谢您的回答,我确实找到了一些解决方案,尽管它们并不完全直截了当。一种解决方案是将文件存储在数据库中,并根据给定操作所需的语言从数据库中提取文件,有点像本地缓存。缓存应该保持相对较小的大小,定期清理很少使用的语言。另一个类似于您所说的。是的,我正在考虑建议一个数据库,但我不确定在开发时间方面是否有成本/收益。再说一次,这两种解决方案似乎都不那么简单,但这是我能看到的唯一两种解决方案,我只是决定不提数据库,我不确定它是否实际可行。API绝对是一种可以实现的方法,所以我使用了它。