Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/csharp/266.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/flutter/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# 使用C语言将PDF转换为可用文本#_C#_Pdf_Text Extraction_Image Extraction - Fatal编程技术网

C# 使用C语言将PDF转换为可用文本#

C# 使用C语言将PDF转换为可用文本#,c#,pdf,text-extraction,image-extraction,C#,Pdf,Text Extraction,Image Extraction,是否有一个库有一个类可以从c#net中的pdf文件中提取文本?我已经尝试了一些,但是文档很糟糕,所以我一直无法启动它。此外,如果它提供了一个类来提取图像,这将是一个加号。有什么建议吗?Thx提前 我还需要能够将其实现到现有的应用程序中。您尝试过吗?它有合理的文档和一些好的例子。它是为服务器环境设计的,所以有点贵 编辑这里是SourceForge上的一个开源库,名为。它对开源项目是免费的。我没用过,但看起来很有希望。因为它有很多代码示例。我们在工作中使用了snowbound软件进行图像转换。它显然

是否有一个库有一个类可以从c#net中的pdf文件中提取文本?我已经尝试了一些,但是文档很糟糕,所以我一直无法启动它。此外,如果它提供了一个类来提取图像,这将是一个加号。有什么建议吗?Thx提前

我还需要能够将其实现到现有的应用程序中。

您尝试过吗?它有合理的文档和一些好的例子。它是为服务器环境设计的,所以有点贵


编辑这里是SourceForge上的一个开源库,名为。它对开源项目是免费的。我没用过,但看起来很有希望。因为它有很多代码示例。

我们在工作中使用了snowbound软件进行图像转换。它显然也支持。但是,它不是免费的。

这里有两种方法可以使用,其中很大一部分取决于您是否希望保留原始PDF的格式设置(即段落和其他布局元素)

如果您正在考虑商业解决方案,我们提供两种可能满足您需求的产品。一个是EasyPDF SDK,它具有单次激发的ExtractText()和ExtractText2()调用,这些调用将文本作为纯文本从PDF中提取出来

请注意,这些调用的输出非常简单,您将丢失许多原始布局元素。它们对于简单的文本提取很好,但如果您的PDF包含表格数据,则可能不太好

如果您处理的是表,一个更好的选择可能是将其作为富文本取出。我们有一个名为EasyConverter SDK的工具,专门用于业务文档,它只需使用一个函数调用即可实现这一点

使用EasyConverter SDK,原始PDF的布局将被保留

两者都支持C#因此,如果您有兴趣,可以在www.pdfonline.com上查看eval版本。我确实为供应商工作,所以我把这个建议看作是一个爱自己孩子的母亲:-)我已经在stackoverflow.com上浏览了很长时间的代码片段,但最近才开始发布,所以如果您对任何API有任何疑问,请告诉我,我可以帮助您。干杯

可以从PDF文件中提取文本和图像

您只能从某些页面的整个文档中提取文本。该库可以提取纯文本,也可以提取带坐标的文本块

您可以从PDF中提取图像(作为JPEG和TIFF文件)

以下是您任务的几个示例:

  • 来自PDF
  • 从PDF

免责声明:我为图书馆供应商Bit Miracle工作。

不确定链接为什么不起作用。但您可以访问snowbound.com->solutions->text extraction