对于Python camelot库,json的无边界pdf提取无法正常工作
谁能给我一个快速的回答/帮助对于Python camelot库,json的无边界pdf提取无法正常工作,python,pdf-extraction,python-camelot,Python,Pdf Extraction,Python Camelot,谁能给我一个快速的回答/帮助 由于我们在使用python将pdf提取为json后面临一些问题,camelot没有给出确切的内容。提取后缺少某些内容。我尝试了以下代码: import camelot pdf_path = '/YOUR/FILEPATH.pdf' tables = camelot.read_pdf(pdf_path, flavor='stream') 这里有两个问题: 标题字体未正确读取,因此您会发现奇怪的字符,如(cid:71) 使用flavor='lattice',无法
由于我们在使用python将pdf提取为json后面临一些问题,camelot没有给出确切的内容。提取后缺少某些内容。我尝试了以下代码:
import camelot
pdf_path = '/YOUR/FILEPATH.pdf'
tables = camelot.read_pdf(pdf_path, flavor='stream')
这里有两个问题:
- 标题字体未正确读取,因此您会发现奇怪的字符,如
(cid:71)
- 使用
,无法检测到该表。使用flavor='lattice'
,可以检测到表格,但无法正确检测单元格flavor='stream'
他们正在解决第二个问题(请参阅和)。请发布PDF和您尝试的内容。我也遇到了同样的问题。很抱歉,无法使用Camelot解决此问题。如果我的答案有用,请将其标记为已接受并投票。是否有其他库可以解决此问题?但extractable.com用于将图像转换为其他格式。我们需要pdf到json。