.net 如何从pdf中提取文本和单词坐标?

.net 如何从pdf中提取文本和单词坐标?,.net,vb.net,pdf,.net,Vb.net,Pdf,如何从.NET中的PDF文档中提取文本?还有,我怎样才能得到页面上每个单词的坐标?我可以使用或使用其他组件来完成此任务吗?在的帮助下,此任务可以轻松完成 下面的代码将所有单词及其坐标写入系统控制台,并在每个找到的单词周围绘制矩形 public static void extractAndDrawWordBounds(string inputFileName, string outputFileName) { using (PdfDocument pdf = new PdfDocument

如何从.NET中的PDF文档中提取文本?还有,我怎样才能得到页面上每个单词的坐标?我可以使用或使用其他组件来完成此任务吗?

在的帮助下,此任务可以轻松完成

下面的代码将所有单词及其坐标写入系统控制台,并在每个找到的单词周围绘制矩形

public static void extractAndDrawWordBounds(string inputFileName, string outputFileName)
{
    using (PdfDocument pdf = new PdfDocument(inputFileName))
    {
        PdfPage page = pdf.Pages[0];
        foreach (PdfTextData data in page.GetWords())
        {
            System.Console.WriteLine(data.ToString());
            page.Canvas.DrawRectangle(data.Bounds);
        }

        pdf.Save(outputFileName);
    }

    System.Diagnostics.Process.Start(outputFileName);
}
除此之外,该库还可以提取格式化文本(方法)甚至单个字符(方法)

免责声明:我是该库的开发人员之一。

试试看


这是我发现的最好的工具,但它不是免费的(而且也不便宜)。

iTextSharp是一种可能,但PDF提取通常不像人们想象的那么容易,因为pdf中的文本并不总是按预期的顺序排列。谢谢Citykid。我们没有按相同的顺序排列。您有使用iTextSharp的示例代码或文档吗?对不起,没有示例代码,几周前我刚刚深入研究了这个主题,我记得iTextSharp是最常用的工具,而且这种转变通常不像我希望的那么简单。我用于测试的第一个文档可能是关于订单问题的。请看,然后从那里链接答案。这将给你一些关于如何开始使用iText(Sharp)的想法。对于PDFBox,请看它的示例。非常感谢mkl。我想使用iTextSharp从文本pdf中提取文本和单词坐标。在下面提到的链接中,我上传了文本pdf。对于该pdf,任何人都能找到单词坐标吗?我不知道,非常感谢mkl。我想使用iTextSharp从文本pdf中提取文本和单词坐标。在下面提到的链接中,我上传了文本pdf。对于该pdf,任何人都能找到单词坐标吗?我不知道,非常感谢。我想使用iTextSharp从文本pdf中提取文本和单词坐标。在下面提到的链接中,我上传了文本pdf。对于该pdf,任何人都能找到单词坐标吗?我对它一无所知