C# 使用C语言将PDF转换为可用文本#_C#_Pdf_Text Extraction_Image Extraction

C# 使用C语言将PDF转换为可用文本#

c# pdf

C# 使用C语言将PDF转换为可用文本#,c#,pdf,text-extraction,image-extraction,C#,Pdf,Text Extraction,Image Extraction,是否有一个库有一个类可以从c#net中的pdf文件中提取文本？我已经尝试了一些，但是文档很糟糕，所以我一直无法启动它。此外，如果它提供了一个类来提取图像，这将是一个加号。有什么建议吗？Thx提前我还需要能够将其实现到现有的应用程序中。您尝试过吗？它有合理的文档和一些好的例子。它是为服务器环境设计的，所以有点贵编辑这里是SourceForge上的一个开源库，名为。它对开源项目是免费的。我没用过，但看起来很有希望。因为它有很多代码示例。我们在工作中使用了snowbound软件进行图像转换。它显然

是否有一个库有一个类可以从c#net中的pdf文件中提取文本？我已经尝试了一些，但是文档很糟糕，所以我一直无法启动它。此外，如果它提供了一个类来提取图像，这将是一个加号。有什么建议吗？Thx提前

我还需要能够将其实现到现有的应用程序中。

您尝试过吗？它有合理的文档和一些好的例子。它是为服务器环境设计的，所以有点贵

编辑这里是SourceForge上的一个开源库，名为。它对开源项目是免费的。我没用过，但看起来很有希望。因为它有很多代码示例。

我们在工作中使用了snowbound软件进行图像转换。它显然也支持。但是，它不是免费的。

这里有两种方法可以使用，其中很大一部分取决于您是否希望保留原始PDF的格式设置（即段落和其他布局元素）

如果您正在考虑商业解决方案，我们提供两种可能满足您需求的产品。一个是EasyPDF SDK，它具有单次激发的ExtractText（）和ExtractText2（）调用，这些调用将文本作为纯文本从PDF中提取出来

请注意，这些调用的输出非常简单，您将丢失许多原始布局元素。它们对于简单的文本提取很好，但如果您的PDF包含表格数据，则可能不太好

如果您处理的是表，一个更好的选择可能是将其作为富文本取出。我们有一个名为EasyConverter SDK的工具，专门用于业务文档，它只需使用一个函数调用即可实现这一点

使用EasyConverter SDK，原始PDF的布局将被保留

两者都支持C#因此，如果您有兴趣，可以在www.pdfonline.com上查看eval版本。我确实为供应商工作，所以我把这个建议看作是一个爱自己孩子的母亲：-）我已经在stackoverflow.com上浏览了很长时间的代码片段，但最近才开始发布，所以如果您对任何API有任何疑问，请告诉我，我可以帮助您。干杯

可以从PDF文件中提取文本和图像

您只能从某些页面的整个文档中提取文本。该库可以提取纯文本，也可以提取带坐标的文本块

您可以从PDF中提取图像（作为JPEG和TIFF文件）

以下是您任务的几个示例：

来自PDF
从PDF

免责声明：我为图书馆供应商Bit Miracle工作。

不确定链接为什么不起作用。但您可以访问snowbound.com->solutions->text extraction