Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/.net/20.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
.net 从PDF文档中提取文本-C#_.net_Asp.net_Pdf - Fatal编程技术网

.net 从PDF文档中提取文本-C#

.net 从PDF文档中提取文本-C#,.net,asp.net,pdf,.net,Asp.net,Pdf,是否有可靠的方法从PDF中提取文本?首先想到的是PDF可能有多个列,提取机制需要知道逻辑结构。我知道有些PDF文档是“标记”的,但我需要支持几乎所有的PDF文档 这里是否有第三方组件需要救援?请参阅:请参阅:一些PDF是扫描的,因此需要OCR(至少可以说不容易) 一些PDF是压缩的,其他(很少)是裸PDF PDF文件格式本身有很好的文档记录,但是当涉及到从一个简单的单列文档中提取正确的“结构”时,您的要求很高。PDF在内部表示,如果每一行文本都以绝对定位的方式放置在div中,HTML可能会是什么

是否有可靠的方法从PDF中提取文本?首先想到的是PDF可能有多个列,提取机制需要知道逻辑结构。我知道有些PDF文档是“标记”的,但我需要支持几乎所有的PDF文档


这里是否有第三方组件需要救援?

请参阅:

请参阅:

一些PDF是扫描的,因此需要OCR(至少可以说不容易)

一些PDF是压缩的,其他(很少)是裸PDF


PDF文件格式本身有很好的文档记录,但是当涉及到从一个简单的单列文档中提取正确的“结构”时,您的要求很高。PDF在内部表示,如果每一行文本都以绝对定位的方式放置在div中,HTML可能会是什么样子。

有些PDF是扫描,因此需要OCR(至少可以说不容易)

一些PDF是压缩的,其他(很少)是裸PDF


PDF文件格式本身有很好的文档记录,但是当涉及到从一个简单的单列文档中提取正确的“结构”时,您的要求很高。PDF在内部表示,如果每行文本都以绝对位置放置在div中,HTML可能会是什么样子。

回答时引用另一个问题而不是标记…回答时引用另一个问题而不是标记。。。