.net 从PDF文档中提取文本-C#_.net_Asp.net_Pdf

.net 从PDF文档中提取文本-C#

.net asp.net pdf

.net 从PDF文档中提取文本-C#,.net,asp.net,pdf,.net,Asp.net,Pdf,是否有可靠的方法从PDF中提取文本？首先想到的是PDF可能有多个列，提取机制需要知道逻辑结构。我知道有些PDF文档是“标记”的，但我需要支持几乎所有的PDF文档这里是否有第三方组件需要救援？请参阅：请参阅：一些PDF是扫描的，因此需要OCR（至少可以说不容易）一些PDF是压缩的，其他（很少）是裸PDF PDF文件格式本身有很好的文档记录，但是当涉及到从一个简单的单列文档中提取正确的“结构”时，您的要求很高。PDF在内部表示，如果每一行文本都以绝对定位的方式放置在div中，HTML可能会是什么

是否有可靠的方法从PDF中提取文本？首先想到的是PDF可能有多个列，提取机制需要知道逻辑结构。我知道有些PDF文档是“标记”的，但我需要支持几乎所有的PDF文档

这里是否有第三方组件需要救援？

请参阅：

一些PDF是扫描的，因此需要OCR（至少可以说不容易）

一些PDF是压缩的，其他（很少）是裸PDF

PDF文件格式本身有很好的文档记录，但是当涉及到从一个简单的单列文档中提取正确的“结构”时，您的要求很高。PDF在内部表示，如果每一行文本都以绝对定位的方式放置在div中，HTML可能会是什么样子。

有些PDF是扫描，因此需要OCR（至少可以说不容易）

一些PDF是压缩的，其他（很少）是裸PDF

PDF文件格式本身有很好的文档记录，但是当涉及到从一个简单的单列文档中提取正确的“结构”时，您的要求很高。PDF在内部表示，如果每行文本都以绝对位置放置在div中，HTML可能会是什么样子。

回答时引用另一个问题而不是标记…回答时引用另一个问题而不是标记。。。