C# ITextSharp GetTextFromPage（）不返回PdfVersion 52'；4'；-1.4_C#_Itextsharp_Pdftotext

C# ITextSharp GetTextFromPage（）不返回PdfVersion 52'；4'；-1.4

C# ITextSharp GetTextFromPage（）不返回PdfVersion 52'；4'；-1.4,c#,itextsharp,pdftotext,C#,Itextsharp,Pdftotext,我正在使用ITextSharp版本5.5.3.0，并试图从C#中的pdf中提取文本。pdf是一个表单，而不是图像。代码如下： var text = new StringBuilder(); // The PdfReader object implements IDisposable.Dispose, so you can // wrap it in the using keyword to automatically dispose of

我正在使用ITextSharp版本5.5.3.0，并试图从C#中的pdf中提取文本。pdf是一个表单，而不是图像。代码如下：

            var text = new StringBuilder();

        // The PdfReader object implements IDisposable.Dispose, so you can
        // wrap it in the using keyword to automatically dispose of it
        using (var pdfReader = new PdfReader(inFileName))
        {
            // Loop through each page of the document
            for (var page = 1; page <= pdfReader.NumberOfPages; page++)
            {
                ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();

                var currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                currentText = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));

                text.Append(currentText);
            }
        }

        return text.ToString();
    }

var text=new StringBuilder（）；
//PdfReader对象实现IDisposable.Dispose，因此您可以
//将其包装在using关键字中以自动处置
使用（var pdfReader=新pdfReader（填充名称））
{
//循环浏览文档的每一页
对于（var page=1；page是否可以使用Acrobat提取文本？如果可以，请发布pdf。显然，问题在于我使用的系统缺少字体。pdf中的2种字体显示为“T3_字体0”、“T3_字体1”。我将尝试找出使用了哪些字体，将它们安装到系统上，然后返回结果。此外，即使是Windows也不知道如何解释pdf文本。我复制粘贴的一些文本，如果粘贴的是胡说八道。部分相关，完全删除行currentText=Encoding…
，因为它最多只能做一件事在最坏的情况下，它实际上会破坏您的文本。有关更多信息，请参阅。我无法测试我的理论，因为我们采用了不同的解决方案，并且ITextSharp已从库中删除。因此，我将无法检查是否添加了所需字体，从而解决了问题。感谢大家的回答。