C# 使用C语言将PDF转换为可用文本#
是否有一个库有一个类可以从c#net中的pdf文件中提取文本?我已经尝试了一些,但是文档很糟糕,所以我一直无法启动它。此外,如果它提供了一个类来提取图像,这将是一个加号。有什么建议吗?Thx提前 我还需要能够将其实现到现有的应用程序中。您尝试过吗?它有合理的文档和一些好的例子。它是为服务器环境设计的,所以有点贵C# 使用C语言将PDF转换为可用文本#,c#,pdf,text-extraction,image-extraction,C#,Pdf,Text Extraction,Image Extraction,是否有一个库有一个类可以从c#net中的pdf文件中提取文本?我已经尝试了一些,但是文档很糟糕,所以我一直无法启动它。此外,如果它提供了一个类来提取图像,这将是一个加号。有什么建议吗?Thx提前 我还需要能够将其实现到现有的应用程序中。您尝试过吗?它有合理的文档和一些好的例子。它是为服务器环境设计的,所以有点贵 编辑这里是SourceForge上的一个开源库,名为。它对开源项目是免费的。我没用过,但看起来很有希望。因为它有很多代码示例。我们在工作中使用了snowbound软件进行图像转换。它显然
编辑这里是SourceForge上的一个开源库,名为。它对开源项目是免费的。我没用过,但看起来很有希望。因为它有很多代码示例。我们在工作中使用了snowbound软件进行图像转换。它显然也支持。但是,它不是免费的。这里有两种方法可以使用,其中很大一部分取决于您是否希望保留原始PDF的格式设置(即段落和其他布局元素) 如果您正在考虑商业解决方案,我们提供两种可能满足您需求的产品。一个是EasyPDF SDK,它具有单次激发的ExtractText()和ExtractText2()调用,这些调用将文本作为纯文本从PDF中提取出来 请注意,这些调用的输出非常简单,您将丢失许多原始布局元素。它们对于简单的文本提取很好,但如果您的PDF包含表格数据,则可能不太好 如果您处理的是表,一个更好的选择可能是将其作为富文本取出。我们有一个名为EasyConverter SDK的工具,专门用于业务文档,它只需使用一个函数调用即可实现这一点 使用EasyConverter SDK,原始PDF的布局将被保留 两者都支持C#因此,如果您有兴趣,可以在www.pdfonline.com上查看eval版本。我确实为供应商工作,所以我把这个建议看作是一个爱自己孩子的母亲:-)我已经在stackoverflow.com上浏览了很长时间的代码片段,但最近才开始发布,所以如果您对任何API有任何疑问,请告诉我,我可以帮助您。干杯 可以从PDF文件中提取文本和图像 您只能从某些页面的整个文档中提取文本。该库可以提取纯文本,也可以提取带坐标的文本块 您可以从PDF中提取图像(作为JPEG和TIFF文件) 以下是您任务的几个示例:
- 来自PDF
- 从PDF
免责声明:我为图书馆供应商Bit Miracle工作。不确定链接为什么不起作用。但您可以访问snowbound.com->solutions->text extraction