C# 使用字体从PDF中提取文本_C#_Pdf_Itextsharp_Pdfbox

C# 使用字体从PDF中提取文本

c# pdf

C# 使用字体从PDF中提取文本,c#,pdf,itextsharp,pdfbox,C#,Pdf,Itextsharp,Pdfbox,我正在尝试开发一个应用程序，其中我使用Accusoft pdfXpress矩形工具在PDF上绘制了一个矩形，现在我有了我选择的段落的坐标。现在我要做的是用字体从这个区域提取文本经过太多的研究，我已经通过许多库（如iTextSharp、PDFBOX、Aspose）提取了纯文本，并尝试了字体提取，但我无法使用字体提取文本。请在这方面提供一些帮助使用PDFTextstream，我得到了如下纯文本： public string gettextf(float x, float y, float w,

我正在尝试开发一个应用程序，其中我使用Accusoft pdfXpress矩形工具在PDF上绘制了一个矩形，现在我有了我选择的段落的坐标。现在我要做的是用字体从这个区域提取文本

经过太多的研究，我已经通过许多库（如iTextSharp、PDFBOX、Aspose）提取了纯文本，并尝试了字体提取，但我无法使用字体提取文本。请在这方面提供一些帮助

使用PDFTextstream，我得到了如下纯文本：

public string gettextf(float x, float y, float w, float h, string docpath)
{
    PDFTextStream stream = new PDFTextStream(docpath);
    RegionOutputTarget tgt = new RegionOutputTarget();
    tgt.addRegion(x, y, w, h, "name");
    tgt.addRegion(40, 570, 120, 16, "address");

    Page p = stream.getPage(0);
    p.pipe(tgt);
    stream.close();

    String name = tgt.getRegionText("name");
    String address = tgt.getRegionText("address");
    return name;
}

您希望检索哪种字体信息？请参阅本文以获取字体信息，