Java 无法读取PDFBOX中的单引号和双引号字符及其周围的某些字符_Java_Pdfbox

Java 无法读取PDFBOX中的单引号和双引号字符及其周围的某些字符

java

Java 无法读取PDFBOX中的单引号和双引号字符及其周围的某些字符,java,pdfbox,Java,Pdfbox,我正在使用Apache PDFbox处理我的PDF。我需要提取文本以及PDF中每个字符的字体信息，以便进一步处理。我使用processTextPosition（TextPosition text）方法获取文本及其字体信息。但是我无法像单引号一样读取字符，双引号和它周围的一些字符。我检查了PDF的流内容。它对这些单引号和双引号以及它周围的字符有一些数字表示，因为它在正常情况下具有实际字符……有谁能帮我解决这个问题。可能有更标准的吗从pdf中提取字体的方法，如本文的答案所述： pdfbox wiki

我正在使用Apache PDFbox处理我的PDF。我需要提取文本以及PDF中每个字符的字体信息，以便进一步处理。我使用processTextPosition（TextPosition text）方法获取文本及其字体信息。但是我无法像单引号一样读取字符，双引号和它周围的一些字符。我检查了PDF的流内容。它对这些单引号和双引号以及它周围的字符有一些数字表示，因为它在正常情况下具有实际字符……有谁能帮我解决这个问题。

可能有更标准的吗从pdf中提取字体的方法，如本文的答案所述：

pdfbox wiki中描述了基本的文本提取：