Poppler pdf2HtmlEX-html上的文本与源pdf不同

Poppler pdf2HtmlEX-html上的文本与源pdf不同,poppler,fontforge,pdf2htmlex,Poppler,Fontforge,Pdf2htmlex,我正在使用pdf2htmlEX将pdf文件转换为html。之后,我还从文件中提取文本 问题: pdf2htmlEX version 0.14.6 Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors Libraries: poppler 0.54.0 libfontforge 20180906 cairo 1.14.6 Default data-dir: /usr/local/

我正在使用
pdf2htmlEX
将pdf文件转换为html。之后,我还从文件中提取文本

问题:

pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries: 
  poppler 0.54.0
  libfontforge 20180906
  cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg
我遇到一个文件,转换后的html中的文本无法读取:

我使用的命令是:

pdf2htmlEX --tounicode 1 ./file.pdf
html上的文本有许多空格和引号-

[2] “M.“Ha h n,”O.“B ar bie ri,”F.p.“C 答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答:答 l、 “Ph ys.”A:“M A te r.”S ci.“P ro ce” ss.“82”(2006)

--tounicode
arg设置其他值会使文本乱七八糟

有一个在线工具使用这个库,那里生成的html很好,这不是pdf2htmlEX错误,而是配置或版本问题。可能与poppler或fontforge有关

版本:

pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries: 
  poppler 0.54.0
  libfontforge 20180906
  cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg
pdf2htmlEX版本0.14.6
版权所有2012-2015鲁旺和其他贡献者
图书馆:
波普勒0.54.0
libfontforge 20180906
开罗1.14.6
默认数据目录:/usr/local/share/pdf2htmlEX
支持的图像格式:png jpg svg
还尝试使用支持此项目的新存储库并获得相同的结果,请参阅问题:

据您所知,pdf2htmlEX使用了大量字符作为空格,如“'()+”。因此,将它们全部替换不是一种选择


有没有办法让pdf2htmlEX不使用这些字符?

我认为以下两个步骤可以奏效:

  • 使用正则表达式删除不必要的空格和引号
  • 为每个参考放置/添加段落标记,如下所示:
  • 
    ::之前
    [2] 某物

    ::之后

    在浏览器中查看页面时,页面本身是良好的。因为css会修改字母间距。您是否在寻找带有正确句子的原始html而不是呈现版本?是的。输出在浏览器上看起来不错,对我来说是个问题。它不能工作,主要原因有两个:1。这些字符用于嵌入字体,更改它们将导致未知行为。2.从文档中删除所有引号也会删除真实的引号,而引号并不是它可以插入原始html中的唯一字符。