C# 用C语言编程读取pdf#

C# 用C语言编程读取pdf#,c#,pdf,C#,Pdf,我看到许多关于使用C#生成PDF文件的问题和答案。我有一个相关但不同的任务 我已经创建了大量PDF文件,我想用正则表达式(Regex)验证内容的某些部分。我想用C#打开PDF,能够以接近线性的方式读出文本 如果页眉、页脚、任何侧边栏等被跳过或被无序读取,这无关紧要。我正在尽可能多地检索主体文本 你能告诉我一些工具、库、API等,它们可以让我以编程方式读取PDF文件中的文本吗?有一个.NET库,名为 codeProject上也有一篇不错的文章 这详细介绍了一些其他的图书馆和阅读方法 PDF文档。

我看到许多关于使用C#生成PDF文件的问题和答案。
我有一个相关但不同的任务

我已经创建了大量PDF文件,我想用正则表达式(Regex)验证内容的某些部分。我想用C#打开PDF,能够以接近线性的方式读出文本

如果页眉、页脚、任何侧边栏等被跳过或被无序读取,这无关紧要。我正在尽可能多地检索主体文本


你能告诉我一些工具、库、API等,它们可以让我以编程方式读取PDF文件中的文本吗?

有一个.NET库,名为

codeProject上也有一篇不错的文章 这详细介绍了一些其他的图书馆和阅读方法 PDF文档。

这里是另一个:


为此,我成功地使用了两个不同的库。一个是(Apache项目的一部分),另一个来自

两者都是Java库,但您可以将其与.NET结合使用。

我在上一次automn之前使用过,与其他automn相比,它非常易于使用。的主页看起来是一个流行的答案

也请查看

@Joe:如果你不仅仅是发布链接,你会获得更多的投票。问题是关于阅读pdf内容,而不是生成。谢谢你所有精彩的答案。我将很快尝试这些软件包,并希望在不久之后接受“最佳答案”。标记为没有建设性-但它确实帮助我了解什么是可用的!如果它不适合问答格式-这种类型的问题应该发布在哪里?我建议将其迁移到软件推荐中。这正是该站点的情况。这是一个非常好的问题,对很多人都很有帮助,但它不太符合SO的格式。当4年前提出这个问题时,我认为软件推荐根本不存在。PDFxStream(née PDFTextStream)也作为.NET程序集分发(Nick提到,IKVM提供了这一功能,尽管该发行版已预编译为.dll,避免了使用IKVM按原样使用Java库时的运行时解释->编译步骤)。