从没有垂直线的PDF表格中提取表格

从没有垂直线的PDF表格中提取表格,pdf,tabula,python-camelot,Pdf,Tabula,Python Camelot,我想从类似下图的PDF文件中提取表格: PDF文件包含文本,不是扫描图像。我一直在尝试使用,但没有成功。latticeflavor不起作用,因为没有垂直线,streamflavor不能正确地分隔行。我玩过行_tol,但因为行的高度不同,所以不能对所有行都起作用 有没有办法使用格式化方法,但是考虑垂直分隔的列分隔符吗?还是有其他方法提取表?我不确定您的表是否始终遵循相同的布局/逻辑。但如果他们这样做了,你可以尝试使用Poppler,使用布局感知文本转换,并手动将其解析为csv或其他格式 PDF对

我想从类似下图的PDF文件中提取表格:

PDF文件包含文本,不是扫描图像。我一直在尝试使用,但没有成功。
lattice
flavor不起作用,因为没有垂直线,
stream
flavor不能正确地分隔行。我玩过
行_tol
,但因为行的高度不同,所以不能对所有行都起作用


有没有办法使用<代码>格式化方法,但是考虑垂直分隔的列分隔符吗?还是有其他方法提取表?

我不确定您的表是否始终遵循相同的布局/逻辑。但如果他们这样做了,你可以尝试使用Poppler,使用布局感知文本转换,并手动将其解析为csv或其他格式


PDF对于表格数据来说是一种非常难看的格式

尝试使用python中的PDFplumber。使用提取表格(垂直策略=“文本”)。但我不确定结果是否准确,因为表格中有一行带有“Note”的内容。

您将非常难以找到任何能够理解表格的PDF解析器,因为单元格中的文本垂直居中,行与行之间没有间隙。我建议离岸重新键入。我已经尝试了Poppler,但不幸的是,由于我的表格垂直对齐,提取的文本到处都是。