Python 如何从PDF生成带有表标记的HTML?

Python 如何从PDF生成带有表标记的HTML?,python,pdf,Python,Pdf,我有一些PDF文件,我想转换成HTML。有些工具支持这一点,但表只是绝对定位的标记。它们不会产生标记 我怎样才能得到桌子标签 这是一个例子。我希望得到这样的东西: 测试文档 Lorem ipsum dolor sit amet,是一位杰出的献身者。马克西穆斯·莫里斯·埃吉斯塔斯的普尔文纳酒店 暂时的,暂时的。奎斯克·森佩尔·奥古斯特·康塞提托·马蒂斯。元素等分 我是马利苏亚达的权杖,无名之地,无名之地。库拉比图尔酒店 直径大或细。这是一个很好的例子。乌拉·波特提托·厄罗斯 欧迪奥,我是你的射手。

我有一些PDF文件,我想转换成HTML。有些工具支持这一点,但表只是绝对定位的
标记。它们不会产生
标记

我怎样才能得到桌子标签

这是一个例子。我希望得到这样的东西:

测试文档
Lorem ipsum dolor sit amet,是一位杰出的献身者。马克西穆斯·莫里斯·埃吉斯塔斯的普尔文纳酒店
暂时的,暂时的。奎斯克·森佩尔·奥古斯特·康塞提托·马蒂斯。元素等分
我是马利苏亚达的权杖,无名之地,无名之地。库拉比图尔酒店
直径大或细。这是一个很好的例子。乌拉·波特提托·厄罗斯
欧迪奥,我是你的射手。两名妇女,孕妇间拍卖人,一名妇女。等分
他坐在一辆汽车上。这是我的生命。大元素,生命
十字勋章。孕妇精英亨德雷特·特里斯蒂克。罗汉果。
Nam sit amet孕妇arcu。这是我的至理名言

产奶孕妇、产奶车辆、非发酵玉米饼 侵权人。福斯·亚库利斯·福吉亚·廷西登。狮子座。努克·福西布斯和尼西·维韦拉。埃尼安 夸姆·洛雷姆,马克西姆斯·非奥迪奥·奎斯,劳里特·波特提托·努克。杜伊斯·塞德·维韦拉·麦格纳。梅塞纳斯大学 同侧额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额额。在威尼斯人的生活中,我们必须选择独立自主的方式。纳拉姆 权贵或权贵,二等功,Placelat sem。便利相位,猫咪eget Laoret aliquam,nisi 奥奇的汽车之角,是维韦拉·维利特·努克·维利特·维利特·努克·维利特·维利特·维利特·努克·维利特·维利特·维利特·维利特·维利特·努克·维利特·。利古拉·弗林利亚的埃蒂亚姆,内贾德·马萨, 东部元素

一小段 这是一个很好的例子。最大直径。克拉斯·奥古斯·埃拉特 孕妇元素。埃尼安·埃雷特·梅特斯,马克西姆斯·阿梅特·达皮布斯·埃雷姆,瓦利普·韦尔阿尔库。 Maecenas非秃鹫mauris。purus et sapien mattis fringilla的Phasellus。维利特是精英吗 帕特·弗林利亚。欧洲的鱼苗是一种很好的鱼苗。前庭前庭 虎皮浮雕和虎皮浮雕中的益智;埃蒂亚姆在乌尔纳,康瓦利斯 戴姆·莫里斯阁下。Phasellus ornare laoreet dui id aliquam。我们的生活充满希望。莫里斯 乌尔纳自由党、埃古斯塔·韦尔厄罗斯·ac、坦普斯·苏西皮特·奥迪奥。非同侧静脉曲张。耳道前庭 尼索尔·奥纳雷·马克西姆斯。瓦里乌斯的无调味品

2011年第一季度 2012年第一季度 每股收益 普通股 0.65 € 0.85 € 优先股 0.66 € 0.86 € 投资组合公司收入 百万欧元 阿巴拉克斯四号 121 34 贝约尔八世 56 78 Cetra欧洲II 90 -
我试过的 pymupdf
导入fitz
def to_html(文件路径:str):
doc=fitz.open(文件路径)
对于i,枚举(doc)中的第页:
text=page.getText(“html”)
打开(f“pymupdf页面-{i}.html”,“w”)作为fp:
fp.write(文本)
文件关闭()
卡米洛特 Camelot可以将表提取为数据帧,但它无法理解其余的不是表

pdftohtml
pdftohtml-c
为我提供了与pymupdf相同的输出-没有语义表。

我工作的公司多年来一直在提供一个PDF表来实现可回流的HTML提取工具

这里有一个在线演示,您可以在这里试用您的PDF文件


SDK和演示版的新更新将定期发布。

您正在寻找可回流的HTML吗?还是固定布局HTML?关于图像和向量路径内容,您希望将其导出为HTML吗?还是仅仅是文字和表格?问得好,@Ryan!我不确定,但我想我更喜欢可回流的HTML。如果可能,还应将光栅和矢量图像导出为HTML。如果不可能,我也不太在乎。(矢量路径内容与矢量图像相同吗?)您是否只寻找免费的开源软件(FOSS)?或者你对商业产品开放吗?我对任何东西都开放:-)