C# 使用iTextSharp以编程方式标记未标记的pdf_C#_Pdf_Itext_Tagged Pdf

C# 使用iTextSharp以编程方式标记未标记的pdf

c# pdf itext

C# 使用iTextSharp以编程方式标记未标记的pdf,c#,pdf,itext,tagged-pdf,C#,Pdf,Itext,Tagged Pdf,我想用iTextSharp解析PDF文件。对于带标签的PDF，我使用了TaggedPDDFReaderTool和.ConvertToXml（）方法，该方法返回一个可接受的XML供进一步解析。现在我必须解析我需要解析的未标记PDF！在Adobe Acrobat中，您可以使用可访问性工具将标记添加到PDF中。之后，我就可以用iTextSharp解析它了。现在我正在寻找一个免费的解决方案，以编程方式（使用iTextSharp）将标签添加到我的PDF中。在“iText In Action”一书中，我读到

我想用iTextSharp解析PDF文件。对于带标签的PDF，我使用了TaggedPDDFReaderTool和.ConvertToXml（）方法，该方法返回一个可接受的XML供进一步解析。现在我必须解析我需要解析的未标记PDF！在Adobe Acrobat中，您可以使用可访问性工具将标记添加到PDF中。之后，我就可以用iTextSharp解析它了。现在我正在寻找一个免费的解决方案，以编程方式（使用iTextSharp）将标签添加到我的PDF中。在“iText In Action”一书中，我读到您可以创建带标签的PDF（从XML文件），但我需要转换现有的PDF

我的解析带标记PDF的代码：

        var path = @"C:\Users\xxx\Desktop\xxx.pdf";
        var fs = new FileStream(@"C:\Users\xxx\Desktop\xxx_tagged.xml", FileMode.Create);

        PdfReader reader = new PdfReader(path);
        TaggedPdfReaderTool tool = new TaggedPdfReaderTool();
        tool.ConvertToXml(reader, fs);
        fs.Close();

这不是一个容易的问题。因为你本质上是在寻求一个解决方案来进行结构识别

想想看。如果您想知道段落的开始和结束位置，您需要一个解决方案来计算表格和列表。更不用说嵌套表和列表及其组合了

这是研究的主题。一种流行的方法是使用神经网络（将pdf作为图像处理，并将其作为图像识别任务处理），或者以基于规则的方式处理

这不是一个容易的问题。因为你本质上是在寻求一个解决方案来进行结构识别

想想看。如果您想知道段落的开始和结束位置，您需要一个解决方案来计算表格和列表。更不用说嵌套表和列表及其组合了

这是研究的主题。一种流行的方法是使用神经网络（将pdf作为图像处理，并将其作为图像识别任务处理），或者以基于规则的方式处理

但Adobe Acrobat是否使用机器学习来标记PDF？所以我想用iTextSharp是不可能的？是否有一个易于使用的框架，它使用神经网络来完成工作。我不愿意投入大量精力（这显然是必要的），因为这是一个小工作。我唯一能想到的另一种方法是购买Acrobat，下载SDK，并以编程方式调用这个自动标记功能。我无法共享PDF，但除了一些文本之外，我还想解析一个带有值的表。在Acrobat的标记版本中，它是一个带有一些和s的对象。你可以绑架一个开发人员和研究工程师团队，让他们工作，并希望他们在挨饿之前完成工作。这可能是解决您的问题的成本最低的解决方案，尽管这部分方案可能需要一些精力。此外，作为一名开发人员，我会反对这样的解决方案。这是不道德的，而且我总是有可能成为被绑架者之一：但Adobe Acrobat是否使用机器学习来标记PDF？所以我想用iTextSharp是不可能的？是否有一个易于使用的框架，它使用神经网络来完成工作。我不愿意投入大量精力（这显然是必要的），因为这是一个小工作。我唯一能想到的另一种方法是购买Acrobat，下载SDK，并以编程方式调用这个自动标记功能。我无法共享PDF，但除了一些文本之外，我还想解析一个带有值的表。在Acrobat的标记版本中，它是一个带有一些和s的对象。你可以绑架一个开发人员和研究工程师团队，让他们工作，并希望他们在挨饿之前完成工作。这可能是解决您的问题的成本最低的解决方案，尽管这部分方案可能需要一些精力。此外，作为一名开发人员，我会反对这样的解决方案。这是不道德的，而且我总是有可能成为被绑架者之一：D