对于Python camelot库,json的无边界pdf提取无法正常工作

对于Python camelot库,json的无边界pdf提取无法正常工作,python,pdf-extraction,python-camelot,Python,Pdf Extraction,Python Camelot,谁能给我一个快速的回答/帮助 由于我们在使用python将pdf提取为json后面临一些问题,camelot没有给出确切的内容。提取后缺少某些内容。我尝试了以下代码: import camelot pdf_path = '/YOUR/FILEPATH.pdf' tables = camelot.read_pdf(pdf_path, flavor='stream') 这里有两个问题: 标题字体未正确读取,因此您会发现奇怪的字符,如(cid:71) 使用flavor='lattice',无法

谁能给我一个快速的回答/帮助
由于我们在使用python将pdf提取为json后面临一些问题,camelot没有给出确切的内容。提取后缺少某些内容。

我尝试了以下代码:

import camelot

pdf_path = '/YOUR/FILEPATH.pdf'
tables = camelot.read_pdf(pdf_path, flavor='stream')

这里有两个问题:

  • 标题字体未正确读取,因此您会发现奇怪的字符,如
    (cid:71)
  • 使用
    flavor='lattice'
    ,无法检测到该表。使用
    flavor='stream'
    ,可以检测到表格,但无法正确检测单元格
目前,我认为卡米洛特无法正确提取此表。
他们正在解决第二个问题(请参阅和)。

请发布PDF和您尝试的内容。我也遇到了同样的问题。很抱歉,无法使用Camelot解决此问题。如果我的答案有用,请将其标记为已接受并投票。是否有其他库可以解决此问题?但extractable.com用于将图像转换为其他格式。我们需要pdf到json。