C# 如何使用c从pdf中提取文本#

C# 如何使用c从pdf中提取文本#,c#,pdf,pdfbox,C#,Pdf,Pdfbox,有没有办法获取存在于特定颜色边界内的文本,比如说“红色”。 是否可以使用c#从pdf中删除“红色”边框框中的所有文本。我已经在谷歌上搜索过了,但我没有找到从pdf中获取样式格式文本的方法 不幸的是,答案并不简单。通常,当程序员需要编写能够解析PDF文件中的文本的代码时(您正在尝试做的事情),他们会使用其他人专门为处理PDF编写的第三方代码库。在C#世界中,著名的PDF操作库有一些选项,但最容易使用的不是免费的。我个人使用一个名为iTextSharp的库取得了很好的效果,但它不是免费的。很遗憾,你

有没有办法获取存在于特定颜色边界内的文本,比如说“红色”。 是否可以使用c#从pdf中删除“红色”边框框中的所有文本。我已经在谷歌上搜索过了,但我没有找到从pdf中获取样式格式文本的方法


不幸的是,答案并不简单。通常,当程序员需要编写能够解析PDF文件中的文本的代码时(您正在尝试做的事情),他们会使用其他人专门为处理PDF编写的第三方代码库。在C#世界中,著名的PDF操作库有一些选项,但最容易使用的不是免费的。我个人使用一个名为iTextSharp的库取得了很好的效果,但它不是免费的。

很遗憾,你不能像解析HTML一样解析PDF。我认为@Joe Irby有最好的解决方案。。。找到第三方选项。但这并不容易。OP已经为他的问题添加了标签,这是一个用于PDF处理的第三方库。我认为他有效地询问了如何使用PDF框实现他的任务。穆罕默德,那些红色边框框是如何绘制的?在PDF中有很多方法可以实现这一点。在一个答案中为所有这些方法创建一个解决方案对于堆栈溢出来说太宽泛了。您尝试过ExtractTextByArea吗?OP已经为他的问题添加了标签,这是一个用于PDF处理的第三方库。我认为他有效地询问了如何使用PDF Box实现他的任务,而不是如何在没有库的情况下完成任务。