C# ITextSharp GetTextFromPage()不返回PdfVersion 52';4';-1.4

C# ITextSharp GetTextFromPage()不返回PdfVersion 52';4';-1.4,c#,itextsharp,pdftotext,C#,Itextsharp,Pdftotext,我正在使用ITextSharp版本5.5.3.0,并试图从C#中的pdf中提取文本。pdf是一个表单,而不是图像。代码如下: var text = new StringBuilder(); // The PdfReader object implements IDisposable.Dispose, so you can // wrap it in the using keyword to automatically dispose of

我正在使用ITextSharp版本5.5.3.0,并试图从C#中的pdf中提取文本。pdf是一个表单,而不是图像。代码如下:

            var text = new StringBuilder();

        // The PdfReader object implements IDisposable.Dispose, so you can
        // wrap it in the using keyword to automatically dispose of it
        using (var pdfReader = new PdfReader(inFileName))
        {
            // Loop through each page of the document
            for (var page = 1; page <= pdfReader.NumberOfPages; page++)
            {
                ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();

                var currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                currentText = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));

                text.Append(currentText);
            }
        }

        return text.ToString();
    }
var text=new StringBuilder();
//PdfReader对象实现IDisposable.Dispose,因此您可以
//将其包装在using关键字中以自动处置
使用(var pdfReader=新pdfReader(填充名称))
{
//循环浏览文档的每一页

对于(var page=1;page是否可以使用Acrobat提取文本?如果可以,请发布pdf。显然,问题在于我使用的系统缺少字体。pdf中的2种字体显示为“T3_字体0”、“T3_字体1”。我将尝试找出使用了哪些字体,将它们安装到系统上,然后返回结果。此外,即使是Windows也不知道如何解释pdf文本。我复制粘贴的一些文本,如果粘贴的是胡说八道。部分相关,完全删除行
currentText=Encoding…
,因为它最多只能做一件事在最坏的情况下,它实际上会破坏您的文本。有关更多信息,请参阅。我无法测试我的理论,因为我们采用了不同的解决方案,并且ITextSharp已从库中删除。因此,我将无法检查是否添加了所需字体,从而解决了问题。感谢大家的回答。