从带有下划线和删除线的PDF中删除文本

从带有下划线和删除线的PDF中删除文本,pdf,Pdf,我有一个PDF文件,其中包含许多下划线和删除线。我想能够将此PDF转换为HTML。我尝试过许多不同的工具,它们有时都会将下划线和删除线作为文本格式,有时会将下划线和删除线转换为图形,这(据我所知)对我来说毫无用处 我真的很想知道这些程序如何区分格式为文本的下划线和转换为图形的下划线,以及我如何能够访问文档并将所有内容捕获为文本格式 我可能在这方面采取了错误的方法,并且愿意接受任何可能的解决方案,我认为我只需要被指向正确的方向 提前感谢您的帮助。PDF中没有下划线和删除线,只是在文本上方画了几行线

我有一个PDF文件,其中包含许多下划线和删除线。我想能够将此PDF转换为HTML。我尝试过许多不同的工具,它们有时都会将下划线和删除线作为文本格式,有时会将下划线和删除线转换为图形,这(据我所知)对我来说毫无用处

我真的很想知道这些程序如何区分格式为文本的下划线和转换为图形的下划线,以及我如何能够访问文档并将所有内容捕获为文本格式

我可能在这方面采取了错误的方法,并且愿意接受任何可能的解决方案,我认为我只需要被指向正确的方向


提前感谢您的帮助。

PDF中没有下划线和删除线,只是在文本上方画了几行线。
检测下划线和删除线的PDF工具通常会查找与文本足够接近的线条图或其他类似的启发式方法,然后在转换为其他格式时向文本输出添加相应的样式。然而,这种方法永远不会在100%的情况下奏效。

这是我所缺乏的一条非常好的信息。非常感谢。我知道PDF的一部分叫做文本流。文本流是否不包含格式化元数据?它实际上是页面流,它只包含绘图操作,其中显示文本是这些操作的一部分。有一些有限的(可选)格式数据,如字体名称和字体大小,但下划线和删除线不属于这一部分,而且“线”并不总是画成线。根据预期的视觉风格,它们有时是填充矩形,或者(在波浪线的情况下)是大量的贝西埃曲线。您可能还对中介绍的想法感兴趣。