奇怪的PDF文本提取案例

奇怪的PDF文本提取案例,pdf,Pdf,我正在查看以下URL: 我尝试过的所有开源文本提取工具的标题如下: uNISON LAuNCHeS MAGHReb VIRTuAL SCIeNCe LIbRARy: A NeW PORTAL PROMOTING INTeRNATIONAL SCIeNTIFIC AND TeCHNICAL COLLAbORATION 然而,Adobe Acrobat Reader提供了更合理的信息-- 空格已关闭,但字符大小写更有意义。知道为什么会有这种差异吗?字体在文档中有描述。文本提取工具会错误地解释描述

我正在查看以下URL:

我尝试过的所有开源文本提取工具的标题如下:

uNISON LAuNCHeS MAGHReb VIRTuAL SCIeNCe LIbRARy: A NeW
PORTAL PROMOTING INTeRNATIONAL SCIeNTIFIC AND
TeCHNICAL COLLAbORATION
然而,Adobe Acrobat Reader提供了更合理的信息--


空格已关闭,但字符大小写更有意义。知道为什么会有这种差异吗?

字体在文档中有描述。文本提取工具会错误地解释描述,或者基于字符代码进行假设。Adobe产品以另一种方式进行操作,并对其进行正确解释。

显然,这是一个“标记内容”流的示例,其中BDC/EMC运营商使用“ActualText”属性对流进行注释,这就是正确的文本所在

根据PDF 32000-1:2008中的7.9.2.2,文本本身采用UTF-16BE或PDF编码

Unison Launch es Maghr eb Virt ual Sci enc e
Librar y: A New Portal Promoting Int ernational
Scientific and Technical Colla boration