C# 无法使用iTextSharp读取使用泰晤士报新罗马字体的文本_C#_.net_Selenium_Itext

C# 无法使用iTextSharp读取使用泰晤士报新罗马字体的文本

c# .net selenium itext

C# 无法使用iTextSharp读取使用泰晤士报新罗马字体的文本,c#,.net,selenium,itext,C#,.net,Selenium,Itext,当我用泰晤士报新罗马字体阅读文本时，我得到了类似“\u0010\u0014”的unicode字符。但我能够成功地阅读Arial字体。我正在使用iTextSharp进行pdf自动化测试。我认为iTextSharp不支持泰晤士报新罗马字体。有人能指导我吗？这并不像你想象的那么简单。iText支持PDF的文本提取，这些PDF包含PDF规范中文本提取算法所需的信息。有些PDF不包含这些信息，或者根本不包含，或者只是以伪造/不正确的形式。这可能是PDF生成器缺少的功能或错误。或者它可能是为了防止文本提取而

当我用泰晤士报新罗马字体阅读文本时，我得到了类似“\u0010\u0014”的unicode字符。但我能够成功地阅读Arial字体。我正在使用iTextSharp进行pdf自动化测试。我认为iTextSharp不支持泰晤士报新罗马字体。有人能指导我吗？

这并不像你想象的那么简单。iText支持PDF的文本提取，这些PDF包含PDF规范中文本提取算法所需的信息。有些PDF不包含这些信息，或者根本不包含，或者只是以伪造/不正确的形式。这可能是PDF生成器缺少的功能或错误。或者它可能是为了防止文本提取而设计的。如果你分享了一个你观察到问题的PDF示例，我们可以对其进行分析，并至少尝试猜测这里的情况。你能用Acrobat提取文本吗？只要复制/粘贴就行了，如果你做不到，没人能做到。