C# 检测图像文件的内容:在图片中查找扫描的文档

C# 检测图像文件的内容:在图片中查找扫描的文档,c#,image-processing,scanning,C#,Image Processing,Scanning,我有很多文件夹,里面有很多图像文件。偶尔,扫描的文档图像会意外地出现在文件夹中,并且在没有人对文件夹进行目视扫描的情况下,这些图像仍然未被检测到,但如果发布到错误的位置,则可能会导致问题 由于它们可以被扫描,因为任何文件类型和大小都在真实图像的范围内,所以很难从元数据中检测到它们 有人知道从正版图像检测扫描文档的方法吗?无论是工具还是编程方法?我建议大家看看Accord框架:。查看计算机视觉功能。我认为这应该取决于你所描述的任务,而且这是一个有趣的学习新领域。祝你好运 我建议大家看看雅阁框架:。

我有很多文件夹,里面有很多图像文件。偶尔,扫描的文档图像会意外地出现在文件夹中,并且在没有人对文件夹进行目视扫描的情况下,这些图像仍然未被检测到,但如果发布到错误的位置,则可能会导致问题

由于它们可以被扫描,因为任何文件类型和大小都在真实图像的范围内,所以很难从元数据中检测到它们


有人知道从正版图像检测扫描文档的方法吗?无论是工具还是编程方法?

我建议大家看看Accord框架:。查看计算机视觉功能。我认为这应该取决于你所描述的任务,而且这是一个有趣的学习新领域。祝你好运

我建议大家看看雅阁框架:。查看计算机视觉功能。我认为这应该取决于你所描述的任务,而且这是一个有趣的学习新领域。祝你好运

假设扫描的文档看起来像任何图像处理库应该做的文档。您只需选择一些特性,就可以将非文档的内容进行分类。使用这些功能应用一些基本分类或机器学习

剩下的几个文件可以由人检查,也可以使用一些ORC。我不会在所有文件上运行OCR,因为它比简单的分类需要更多的计算时间

文件(尤其是机密文件)往往有明亮的背景和高频暗前景。黑暗的东西排成一行。几乎没有颜色,如果这些颜色通常只占文档的一小部分(徽标等) 我想不出有多少图像共享这些属性

所以,除非你的收藏中有很多报纸和书籍的图片,否则你很好


当然,扫描仪和相机有不同的成像特性和光学像差,我相信你可以在文件中找到其中一些,但这并不适用于所有图像。尤其是如果这些图像是从较大的图像中裁剪出来的,就更不用说了。

假设扫描的文档看起来像任何图像处理库都应该做的文档。您只需选择一些特性,就可以将非文档的内容进行分类。使用这些功能应用一些基本分类或机器学习

剩下的几个文件可以由人检查,也可以使用一些ORC。我不会在所有文件上运行OCR,因为它比简单的分类需要更多的计算时间

文件(尤其是机密文件)往往有明亮的背景和高频暗前景。黑暗的东西排成一行。几乎没有颜色,如果这些颜色通常只占文档的一小部分(徽标等) 我想不出有多少图像共享这些属性

所以,除非你的收藏中有很多报纸和书籍的图片,否则你很好


当然,扫描仪和相机有不同的成像特性和光学像差,我相信你可以在文件中找到其中一些,但这并不适用于所有图像。尤其是如果这些图像是从较大的图像中裁剪出来的,那么就不会了。

文件夹中的背景图像上是否还有其他文本?这些扫描文档中常见大图片吗?从一个非简单的图像大海捞针中过滤大部分文本文档的一种非万无一失的方法是基于Shannon(直方图)熵对图像进行高通处理。大多数图像的熵值比简单文档高一个数量级。

文件夹中的背景图像上是否还有其他文本?这些扫描文档中常见大图片吗?从一个非简单的图像大海捞针中过滤大部分文本文档的一种非万无一失的方法是基于Shannon(直方图)熵对图像进行高通处理。大多数图像的熵值比简单的文档高出一个数量级。

通过使用大量训练样本,您应该能够“教”您的程序(使用Accord或类似工具)来识别差异。我认为这可能是最好的方法-标记符合模式的图像进行审查,然后允许机器学习根据人类审查不断完善模式。通过使用大量训练样本,你应该能够“教”你的程序(使用Accord或类似工具)来识别差异。我认为这可能是最好的方式——标记符合模式的审查图像,然后允许机器学习在人类回顾的基础上不断完善模式。