Java 无法读取PDFBOX中的单引号和双引号字符及其周围的某些字符

Java 无法读取PDFBOX中的单引号和双引号字符及其周围的某些字符,java,pdfbox,Java,Pdfbox,我正在使用Apache PDFbox处理我的PDF。我需要提取文本以及PDF中每个字符的字体信息,以便进一步处理。我使用processTextPosition(TextPosition text)方法获取文本及其字体信息。但是我无法像单引号一样读取字符,双引号和它周围的一些字符。我检查了PDF的流内容。它对这些单引号和双引号以及它周围的字符有一些数字表示,因为它在正常情况下具有实际字符……有谁能帮我解决这个问题。可能有更标准的吗从pdf中提取字体的方法,如本文的答案所述: pdfbox wiki

我正在使用Apache PDFbox处理我的PDF。我需要提取文本以及PDF中每个字符的字体信息,以便进一步处理。我使用processTextPosition(TextPosition text)方法获取文本及其字体信息。但是我无法像单引号一样读取字符,双引号和它周围的一些字符。我检查了PDF的流内容。它对这些单引号和双引号以及它周围的字符有一些数字表示,因为它在正常情况下具有实际字符……有谁能帮我解决这个问题。

可能有更标准的吗从pdf中提取字体的方法,如本文的答案所述:

pdfbox wiki中描述了基本的文本提取: