C# OpenText DokuStar捕获中心提取增强

C# OpenText DokuStar捕获中心提取增强,c#,extraction,image-capture,opentext,C#,Extraction,Image Capture,Opentext,因为OpenText Capture Center中几乎没有关于编程的文档或代码片段。我需要有经验的人提供一些意见 这是我需要的关键。。。 在脚本管理器中,我需要能够访问OCR在文档中标识的所有短语对象,而不考虑在提取过程中匹配或标识的字段 只要我能使用OCR短语,我就可以做两件事,这将大大提高我们在任何领域的匹配率 在匹配发生之前,作为一种预处理,对发票短语进行清理和转换(即,将公司变为公司,删除撇号等) 编写一个自定义匹配函数,该函数比本机通用SnapMatch更了解我们的数据 谢谢 好的,

因为OpenText Capture Center中几乎没有关于编程的文档或代码片段。我需要有经验的人提供一些意见

这是我需要的关键。。。 在脚本管理器中,我需要能够访问OCR在文档中标识的所有短语对象,而不考虑在提取过程中匹配或标识的字段

只要我能使用OCR短语,我就可以做两件事,这将大大提高我们在任何领域的匹配率

  • 在匹配发生之前,作为一种预处理,对发票短语进行清理和转换(即,将公司变为公司,删除撇号等)
  • 编写一个自定义匹配函数,该函数比本机通用SnapMatch更了解我们的数据

  • 谢谢

    好的,最终没有办法通过脚本管理器入口点实现这一点。这样做的原因是,所有图像数据都是在进入脚本管理器之前解析和提取的。当您进入管理器的提取阶段时,您已经有了一个XML运行时文档,该文档使用提取“认为可能有用”的数据表示输出文档的元结构。如果提取的所有其他可能的“短语”和其他数据类型不直接适合某个字段或替代项,则将“丢弃”。这意味着DoKuStar不感兴趣的供应商名称或类似名称仍然无法通过任何代码机制进行搜索

    我需要解决的问题非常特定于我的特定领域,并且是由Oracle组的策略间接导致的。供应商的名称被去掉特殊字符并连接起来。基本上,它们只是与发票上的内容不匹配,因此snapmatch实际上毫无用处


    我创建了一个中间解决方案,用户可以直接更新本地SnapMatch数据库,可以说是“重命名供应商”。因此,在我们进行更正时,本地SnapMatch数据库将与发票上的内容相匹配,即使Oracle数据库不匹配。总而言之,这不是编码方面的具体解决方案,但事实证明它是解决域问题的有效方法。

    这是一个非常狭隘的问题。您可能会发现直接与OpenText对话会获得更好的结果。祝你好运!谢谢你祝我好运。承认你的观察,是的,这是一个非常具体的问题,回答起来应该非常简单。为什么每一个关于stackoverflow的OCC问题都会被指向OpenText,而OpenText会收取支持费用?每一个C#问题都应该提交给微软的帮助台吗?事实上,每天都有数百万人使用C#。与C#相比,针对OpenText产品构建解决方案的开发人员数量很少。因此,我祝你在这里好运,并建议你可能会从你的供应商那里得到更好的结果。抱歉,我不知道您的具体问题的答案。是的,我只是希望StackOverflow上至少有一个人熟悉OpenText。**叹息**