.net 从PDF文档中提取文本-C#
是否有可靠的方法从PDF中提取文本?首先想到的是PDF可能有多个列,提取机制需要知道逻辑结构。我知道有些PDF文档是“标记”的,但我需要支持几乎所有的PDF文档.net 从PDF文档中提取文本-C#,.net,asp.net,pdf,.net,Asp.net,Pdf,是否有可靠的方法从PDF中提取文本?首先想到的是PDF可能有多个列,提取机制需要知道逻辑结构。我知道有些PDF文档是“标记”的,但我需要支持几乎所有的PDF文档 这里是否有第三方组件需要救援?请参阅:请参阅:一些PDF是扫描的,因此需要OCR(至少可以说不容易) 一些PDF是压缩的,其他(很少)是裸PDF PDF文件格式本身有很好的文档记录,但是当涉及到从一个简单的单列文档中提取正确的“结构”时,您的要求很高。PDF在内部表示,如果每一行文本都以绝对定位的方式放置在div中,HTML可能会是什么
这里是否有第三方组件需要救援?请参阅:请参阅:一些PDF是扫描的,因此需要OCR(至少可以说不容易) 一些PDF是压缩的,其他(很少)是裸PDF
PDF文件格式本身有很好的文档记录,但是当涉及到从一个简单的单列文档中提取正确的“结构”时,您的要求很高。PDF在内部表示,如果每一行文本都以绝对定位的方式放置在div中,HTML可能会是什么样子。有些PDF是扫描,因此需要OCR(至少可以说不容易) 一些PDF是压缩的,其他(很少)是裸PDF
PDF文件格式本身有很好的文档记录,但是当涉及到从一个简单的单列文档中提取正确的“结构”时,您的要求很高。PDF在内部表示,如果每行文本都以绝对位置放置在div中,HTML可能会是什么样子。回答时引用另一个问题而不是标记…回答时引用另一个问题而不是标记。。。