Database 通过400万张纸和每天添加10000张的OCR/搜索解决方案_Database_Ocr

Database 通过400万张纸和每天添加10000张的OCR/搜索解决方案

database

Database 通过400万张纸和每天添加10000张的OCR/搜索解决方案,database,ocr,Database,Ocr,我在一家医学实验室工作。他们需要能够搜索所有的客户数据。到目前为止，他们在几年内储存了大约400万张纸，每天增加10000页。对于6个月前的数据，他们每天需要访问10-20次。他们正在决定是否要花8万英镑买一个扫描系统，让秘书扫描家里的所有东西，还是雇佣一家像铁山这样的公司来做这件事。铁山将收取每页8美分左右的费用，这意味着我们拥有的纸张总量将达到30万美元，加上每天10000张的额外费用我想也许我可以建立一个数据库，在家里做所有的扫描那些用来扫描支票和邮件的系统是什么，它们能很好地阅读凌乱

我在一家医学实验室工作。他们需要能够搜索所有的客户数据。到目前为止，他们在几年内储存了大约400万张纸，每天增加10000页。对于6个月前的数据，他们每天需要访问10-20次。他们正在决定是否要花8万英镑买一个扫描系统，让秘书扫描家里的所有东西，还是雇佣一家像铁山这样的公司来做这件事。铁山将收取每页8美分左右的费用，这意味着我们拥有的纸张总量将达到30万美元，加上每天10000张的额外费用

我想也许我可以建立一个数据库，在家里做所有的扫描

那些用来扫描支票和邮件的系统是什么，它们能很好地阅读凌乱的手写体

有没有人有过用大量OCR可搜索文档构建数据库的经验？我应该使用什么工具解决我的问题

你能推荐最好的OCR库吗

作为一名程序员，你会如何解决这个问题

仅供参考以下答案中没有一个能很好地回答我的问题

更新
使用@eykanal idea作为起点
您将存储的元数据示例包括文档id、源图像的位置和查找记录的依据（患者id、ssn或姓名等）。“记录定位器”数据可能需要由数据输入人员在扫描物理表单时输入。

原件：

不确定支票阅读器的名称，但（至少对于支票而言）它们只查找数字，因此，对于这样一组受限的字符，它们比普通OCR准确得多

需要考虑一件事：
大约每页扫描时间为10秒。
然后10000*10/60/60=~27.8小时扫描您的每日摄入量。

这意味着每天扫描的全职员工超过三名。这对你和你的雇主来说可能没问题，但我想把扫描外包会更便宜。即使是3名低薪员工，在福利等之后的总和也将超过10万人/年

另外：

在过去使用xerox doc扫描仪的经验中，根据设置（不包括OCR文本），它们导致每页大约50-100k的图像数据。考虑到你在谈论医疗记录，你可能也需要存储这些记录（如果你不存储，我可以想象会有法律问题）。这意味着你拥有的200-400千兆，加上每天1/2到1千兆。

你不可能找到能够可靠读取笔迹的OCR软件，尤其是你形容为“凌乱”的手写体

你可以在一个扫描系统上花很多钱，但这会变得非常昂贵、非常迅速（每个高端扫描仪至少要花费1.5万美元，再加上软件、培训等费用）。如果没有可靠的OCR，您还必须手动键入要从每个文档中捕获的所有数据。显然，这将大大增加您的成本（更多的软件、额外的员工等），更不用说从创建新文档到用户可以使用这些文档的周转时间对于您所谈论的每日数量来说可能是不可接受的

你最好把你所有的文件都寄到铁山这样的公司。对于你所说的数量——假设你想要扫描/键入的文档不是太复杂——如果你不能得到比每页0.08美元更好的价格，我会感到惊讶

这样的公司可以将您的图像和数据导入某种文档管理软件，或者您可以编写自己的应用程序。

分而治之！如果你决定走“内部”的路线。您的设计需要从第一天起就具有可扩展性

这是一种罕见的情况，任务可以分解并并行完成

如果您有10K文档，即使您构建和部署了10x（扫描仪+服务器+自定义应用程序），这意味着每个系统只需要处理大约1k个文档

挑战在于使其成为一种廉价可靠的“交钥匙解决方案”

应用程序端可能是更简单的元素，只要您从一开始就设计了一个良好的自动更新系统，您就可以在扩展“场/集群”时简单地添加硬件

保持您的设计模块化（即使用商品价格低廉的硬件），将允许您按需混合和匹配硬件/更换，而不会影响日常吞吐量

最初尝试使用一个可以轻松保存1000个文档的交钥匙解决方案。然后，一旦这项工作完美无瑕地放大它

祝你好运

编辑1：好的，下面是对您提出的每个具体问题的更详细的回答：

那些用来扫描支票和邮件的系统是什么读起来真是乱七八糟嗯

英国的邮件/邮递公司“TNT”使用的一个此类系统由一家荷兰公司及其引擎提供

我强烈建议你与他们联系。手写识别永远不会非常准确，印刷字符的OCR有时可以达到99%的准确率

有没有人有过用一堆OCR数据建立数据库的经验可搜索文件？什么工具我应该用它来解决我的问题吗

不是特别针对OCR文档，而是针对我们的一个客户，我构建并维护了一个非常庞大而复杂的EDMS，其中包含各种各样的文档格式。它可以通过一组复杂的数据权限访问以多种不同的方式进行搜索

在提供建议方面，我想说几件事要记住：

把文件归档