从没有垂直线的PDF表格中提取表格_Pdf_Tabula_Python Camelot

从没有垂直线的PDF表格中提取表格

pdf

从没有垂直线的PDF表格中提取表格,pdf,tabula,python-camelot,Pdf,Tabula,Python Camelot,我想从类似下图的PDF文件中提取表格： PDF文件包含文本，不是扫描图像。我一直在尝试使用，但没有成功。latticeflavor不起作用，因为没有垂直线，streamflavor不能正确地分隔行。我玩过行_tol，但因为行的高度不同，所以不能对所有行都起作用有没有办法使用格式化方法，但是考虑垂直分隔的列分隔符吗？还是有其他方法提取表？我不确定您的表是否始终遵循相同的布局/逻辑。但如果他们这样做了，你可以尝试使用Poppler，使用布局感知文本转换，并手动将其解析为csv或其他格式 PDF对

我想从类似下图的PDF文件中提取表格：

PDF文件包含文本，不是扫描图像。我一直在尝试使用，但没有成功。

lattice

flavor不起作用，因为没有垂直线，

stream

flavor不能正确地分隔行。我玩过

行_tol

，但因为行的高度不同，所以不能对所有行都起作用

有没有办法使用<代码>格式化方法，但是考虑垂直分隔的列分隔符吗？还是有其他方法提取表？

我不确定您的表是否始终遵循相同的布局/逻辑。但如果他们这样做了，你可以尝试使用Poppler，使用布局感知文本转换，并手动将其解析为csv或其他格式

PDF对于表格数据来说是一种非常难看的格式

尝试使用python中的PDFplumber。使用提取表格（垂直策略=“文本”）。但我不确定结果是否准确，因为表格中有一行带有“Note”的内容。

您将非常难以找到任何能够理解表格的PDF解析器，因为单元格中的文本垂直居中，行与行之间没有间隙。我建议离岸重新键入。我已经尝试了Poppler，但不幸的是，由于我的表格垂直对齐，提取的文本到处都是。