在netcore中解析pdf

在netcore中解析pdf,pdf,asp.net-core,.net-core,Pdf,Asp.net Core,.net Core,我有一个Asp.Net核心项目。这个项目引用了另一个库,我应该在其中从pdf中提取信息。我使用的是itextsharp,但它似乎与.NETCore不兼容 知道如何从pdf文件中提取文本吗 如果您想编写自己的pdf解析器,您需要阅读所有不同版本的pdf文件格式。它们都是官方文档。从PDF中提取文本是一项复杂的任务。我不建议你在没有图书馆的情况下这样做 对于Asp.Net核心库,我可以向您推荐(我为供应商工作)。该库和不仅可用于提取文本,还可用于提取路径和图像 以下是一些示例/教程: 如果您

我有一个Asp.Net核心项目。这个项目引用了另一个库,我应该在其中从pdf中提取信息。我使用的是itextsharp,但它似乎与.NETCore不兼容


知道如何从pdf文件中提取文本吗

如果您想编写自己的pdf解析器,您需要阅读所有不同版本的pdf文件格式。它们都是官方文档。

从PDF中提取文本是一项复杂的任务。我不建议你在没有图书馆的情况下这样做

对于Asp.Net核心库,我可以向您推荐(我为供应商工作)。该库和不仅可用于提取文本,还可用于提取路径和图像

以下是一些示例/教程:


如果您在此处提出问题,我们可以为第三方库提供建议:我将投票结束这个问题,因为它应该是关于软件的recommendations@VMAtm在没有第三方库的情况下能够做到这一点会更好。如果这是唯一的办法,我会用图书馆来做。但我的问题不是在单独的lib(或“最佳lib”)之间进行选择。我的问题是怎么做。也许这需要一个库,我还不知道。@J4N除非你想编写一个PDF解析器(并将代码封装在你自己的库中),否则你必须使用第三方PDF库。我曾经使用过iTextSharp库。我不认为这有那么复杂。有这么多不同版本的修订,PDF包含1310页,我无法阅读所有这些(也无法实现所有这些版本)难道没有最简单的方法吗?我只是想从PDF中抓取一些文本…很抱歉反应太晚,但不幸的是,没有更简单的方法,只能使用其他人已经编写的库。您可能可以编写半个只读取文本字段的解析器,但仍然需要考虑格式的不同修订。除非您完全确定解析器将要读取的PDF都是一个确切的版本。另外,还有一点需要注意的是,有时文本实际上不会以文本的形式存储在pdf中,而是以图像的形式存储。谢谢你的回答,但这是我在业余时间做的一个非常小的开源项目,我付不起你的许可证:(看一看