Nlp 使用人工智能识别文档类型的最佳方法是什么?

Nlp 使用人工智能识别文档类型的最佳方法是什么?,nlp,computer-vision,artificial-intelligence,ocr,spacy,Nlp,Computer Vision,Artificial Intelligence,Ocr,Spacy,伙计们!祝你一切顺利。识别文档类型的最佳方法是什么?我脑海中浮现的第一件事是将文档传递到OCR,提取其中的信息,然后尝试在该文档中找到其他文档上没有的内容。例如:在一个名为R.G的文档中,有一个名为“orgão expedidor”的信息,但在另一个文档中没有。通过这种方式,我知道这可能是一个R.G.这里的问题是,de OCR过程无法识别某些PDF上的字段“Órgão expedidor”。这是完成这项任务的最佳方式吗 首先,您需要创建覆盖您的域的数据集。准备文本语料库并为其指定所需的标记。查看

伙计们!祝你一切顺利。识别文档类型的最佳方法是什么?我脑海中浮现的第一件事是将文档传递到OCR,提取其中的信息,然后尝试在该文档中找到其他文档上没有的内容。例如:在一个名为R.G的文档中,有一个名为“orgão expedidor”的信息,但在另一个文档中没有。通过这种方式,我知道这可能是一个R.G.这里的问题是,de OCR过程无法识别某些PDF上的字段“Órgão expedidor”。这是完成这项任务的最佳方式吗

首先,您需要创建覆盖您的域的数据集。准备文本语料库并为其指定所需的标记。查看此项了解有关语料库嵌入器的一些提示

  • 使用一些OCR包(即tesseract)提取文本
  • 将文本编码到潜在空间
  • 训练你的模特
  • 这是最简单的方法


    当您根据某些视觉特征确定文档类型时,这会变得更加困难。然后,您必须深入研究CNN体系结构,因为手动定义这些功能非常困难,而且容易出错。

    欢迎使用堆栈溢出。这是一个很好的问题——不知道人们为什么投反对票。如果您不能依靠OCR进行分类,您可以使用文档的格式吗?文档在视觉上是否看起来不同。如果它们看起来不同,您可以将页面转换为图像,并使用图像分类AI对图像进行分类。你能发布一些示例文档页面吗?欢迎来到StackOverflow,而且。。。在这里申请。“什么是最好的方式…?”对于这个网站来说几乎总是太宽泛了。谢谢Adnan和Prune的回答。我可能不会使用计算机视觉来完成这项任务。最后我可能会使用OCR和NLP。谢谢,Piotr!最后我可能会使用OCR和NLP