C# 使用iTextSharp以编程方式标记未标记的pdf

C# 使用iTextSharp以编程方式标记未标记的pdf,c#,pdf,itext,tagged-pdf,C#,Pdf,Itext,Tagged Pdf,我想用iTextSharp解析PDF文件。对于带标签的PDF,我使用了TaggedPDDFReaderTool和.ConvertToXml()方法,该方法返回一个可接受的XML供进一步解析。现在我必须解析我需要解析的未标记PDF!在Adobe Acrobat中,您可以使用可访问性工具将标记添加到PDF中。之后,我就可以用iTextSharp解析它了。现在我正在寻找一个免费的解决方案,以编程方式(使用iTextSharp)将标签添加到我的PDF中。在“iText In Action”一书中,我读到

我想用iTextSharp解析PDF文件。对于带标签的PDF,我使用了TaggedPDDFReaderTool和.ConvertToXml()方法,该方法返回一个可接受的XML供进一步解析。现在我必须解析我需要解析的未标记PDF!在Adobe Acrobat中,您可以使用可访问性工具将标记添加到PDF中。之后,我就可以用iTextSharp解析它了。现在我正在寻找一个免费的解决方案,以编程方式(使用iTextSharp)将标签添加到我的PDF中。在“iText In Action”一书中,我读到您可以创建带标签的PDF(从XML文件),但我需要转换现有的PDF

我的解析带标记PDF的代码:

        var path = @"C:\Users\xxx\Desktop\xxx.pdf";
        var fs = new FileStream(@"C:\Users\xxx\Desktop\xxx_tagged.xml", FileMode.Create);

        PdfReader reader = new PdfReader(path);
        TaggedPdfReaderTool tool = new TaggedPdfReaderTool();
        tool.ConvertToXml(reader, fs);
        fs.Close();

这不是一个容易的问题。因为你本质上是在寻求一个解决方案来进行结构识别

想想看。如果您想知道段落的开始和结束位置,您需要一个解决方案来计算表格和列表。更不用说嵌套表和列表及其组合了


这是研究的主题。一种流行的方法是使用神经网络(将pdf作为图像处理,并将其作为图像识别任务处理),或者以基于规则的方式处理

这不是一个容易的问题。因为你本质上是在寻求一个解决方案来进行结构识别

想想看。如果您想知道段落的开始和结束位置,您需要一个解决方案来计算表格和列表。更不用说嵌套表和列表及其组合了


这是研究的主题。一种流行的方法是使用神经网络(将pdf作为图像处理,并将其作为图像识别任务处理),或者以基于规则的方式处理

但Adobe Acrobat是否使用机器学习来标记PDF?所以我想用iTextSharp是不可能的?是否有一个易于使用的框架,它使用神经网络来完成工作。我不愿意投入大量精力(这显然是必要的),因为这是一个小工作。我唯一能想到的另一种方法是购买Acrobat,下载SDK,并以编程方式调用这个自动标记功能。我无法共享PDF,但除了一些文本之外,我还想解析一个带有值的表。在Acrobat的标记版本中,它是一个带有一些和s的对象。你可以绑架一个开发人员和研究工程师团队,让他们工作,并希望他们在挨饿之前完成工作。这可能是解决您的问题的成本最低的解决方案,尽管这部分方案可能需要一些精力。此外,作为一名开发人员,我会反对这样的解决方案。这是不道德的,而且我总是有可能成为被绑架者之一:但Adobe Acrobat是否使用机器学习来标记PDF?所以我想用iTextSharp是不可能的?是否有一个易于使用的框架,它使用神经网络来完成工作。我不愿意投入大量精力(这显然是必要的),因为这是一个小工作。我唯一能想到的另一种方法是购买Acrobat,下载SDK,并以编程方式调用这个自动标记功能。我无法共享PDF,但除了一些文本之外,我还想解析一个带有值的表。在Acrobat的标记版本中,它是一个带有一些和s的对象。你可以绑架一个开发人员和研究工程师团队,让他们工作,并希望他们在挨饿之前完成工作。这可能是解决您的问题的成本最低的解决方案,尽管这部分方案可能需要一些精力。此外,作为一名开发人员,我会反对这样的解决方案。这是不道德的,而且我总是有可能成为被绑架者之一:D