C# 如何从pdf c中获取具有特定颜色的文本#

C# 如何从pdf c中获取具有特定颜色的文本#,c#,pdf,colors,itextsharp,C#,Pdf,Colors,Itextsharp,我必须将pdf文件中的数据放入特定的数据库结构中。这要求我能够从pdf文件中获取某些数据。因为pdf没有任何标签等。。。我想知道是否有可能获得基于颜色的文本。比如说,我想要所有的红色文本。或者我想要文档中的所有斜体文本。这在C#中可能吗?还是有其他方法可以轻松过滤pdf文档中的数据 通过使用此库 您可以访问每个单词的样式(字体、颜色…) iText的PDFTextractor(以及它所依赖的所有代码)不跟踪当前颜色。哎哟添加并不难,因此您可以自己修改iText: 将笔划和填充颜色成员添加到Gra

我必须将pdf文件中的数据放入特定的数据库结构中。这要求我能够从pdf文件中获取某些数据。因为pdf没有任何标签等。。。我想知道是否有可能获得基于颜色的文本。比如说,我想要所有的红色文本。或者我想要文档中的所有斜体文本。这在C#中可能吗?还是有其他方法可以轻松过滤pdf文档中的数据

通过使用此库 您可以访问每个单词的样式(字体、颜色…)

iText的PDFTextractor(以及它所依赖的所有代码)不跟踪当前颜色。哎哟添加并不难,因此您可以自己修改iText:

  • 将笔划和填充颜色成员添加到GraphicState类(并适当更新各种构造函数)
  • 您需要为“g”、“g”、“rg”、“rg”、“K”和“K”(可能还有CS、CS、SC、SC、SCN、SCN)添加
    ContentOperator
    类,以修改笔划和填充颜色
  • 向TextRenderInfo添加方法以获取当前笔划和填充颜色
  • 请尝试使用pdflibet

    它应该能够获取有关文本的信息。

    我采取了不同的方法。我将pdf转换为excel文件。这很容易搜索彩色文本

    您使用的是什么PDF库?iText PDF,但还没有找到我想要的功能。所以我愿意接受任何关于图书馆的建议
    this.pdfDoc.Pages[4].WordList.ElementAt(143).ForeColor