Python pdfminer-访问PDF表

Python pdfminer-访问PDF表,python,parsing,pdf,pdfminer,Python,Parsing,Pdf,Pdfminer,我正在使用pdfMiner解析PDF,并将其用作python脚本中的库 在大多数PDF中都有一个表,其中一列名为“company” 有没有办法: 1) 检测PDF中是否存在该表。 2) 获取所有公司名称(即表格第2列中的所有条目) 谢谢你的帮助 AC到目前为止,我发现最好的方法是在pdfminer库中使用HTMLconverter类。这允许您将pdf转换为HTML格式,并且更容易计算出表、行和列。至少在我的例子中:它可以处理PDF文件中的所有类型的表。到目前为止,我找到的最好的方法是在pdfmi

我正在使用pdfMiner解析PDF,并将其用作python脚本中的库

在大多数PDF中都有一个表,其中一列名为“company”

有没有办法: 1) 检测PDF中是否存在该表。 2) 获取所有公司名称(即表格第2列中的所有条目)

谢谢你的帮助
AC

到目前为止,我发现最好的方法是在pdfminer库中使用HTMLconverter类。这允许您将pdf转换为HTML格式,并且更容易计算出表、行和列。至少在我的例子中:它可以处理PDF文件中的所有类型的表。

到目前为止,我找到的最好的方法是在pdfminer库中使用HTMLconverter类。这允许您将pdf转换为HTML格式,并且更容易计算出表、行和列。至少在我的情况下:它可以处理PDF文件中的各种表格