Python 使用Camelot从该PDF提取数据时,未找到表并合并了列文本

Python 使用Camelot从该PDF提取数据时,未找到表并合并了列文本,python,pdf-parsing,python-camelot,Python,Pdf Parsing,Python Camelot,当我试图从附加的PDF中提取表格时,我得到一个用户警告:在第1页上找不到表格。然而,当我查看提取的数据时,一些列文本被合并到单个列中。” 我正在使用解析这些PDF 复制步骤:camelot——输出m27.csv——格式化csv流m27.pdf 这里是我试图解析的PDF的链接:PDF只包含将字符放置在二维平面上x,y坐标处的说明,不保留单词、句子或表格的知识 卡米洛特用《风帽下》把人物分成单词,把单词分成句子。有时,当字符过于接近时,PDFMiner可以将属于不同单词的字符分组为一个字符 由于P

当我试图从附加的PDF中提取表格时,我得到一个
用户警告:在第1页上找不到表格。然而,当我查看提取的数据时,一些列文本被合并到单个列中。”

我正在使用解析这些PDF

复制步骤:
camelot——输出m27.csv——格式化csv流m27.pdf


这里是我试图解析的PDF的链接:

PDF只包含将字符放置在二维平面上x,y坐标处的说明,不保留单词、句子或表格的知识

卡米洛特用《风帽下》把人物分成单词,把单词分成句子。有时,当字符过于接近时,PDFMiner可以将属于不同单词的字符分组为一个字符

由于PDF表格中的字符位置非常接近,因此它们被合并为一个单词,因此Camelot无法正确检测列。在这种情况下,可以指定列分隔符以获取表。要获取列分隔符的x坐标,可以查看。此外,可以指定
split_text=True
沿指定的列分隔符剪切单词。下面是代码(我通过使用
$camelot stream-plot text m27.PDF
)在PDF中创建文本的matplotlib绘图来获得x坐标):

使用CLI:

$camelot--output m27.csv--format csv-split stream-C 72,95209327442529566606683 m27.pdf

使用API:

>>> import camelot
>>> tables = camelot.read_pdf('m27.pdf', flavor='stream', columns=['72,95,209,327,442,529,566,606,683'], split_text=True)

PDF只包含将字符放置在二维平面上x、y坐标处的说明,不保留单词、句子或表格的知识

卡米洛特用《风帽下》把人物分成单词,把单词分成句子。有时,当字符过于接近时,PDFMiner可以将属于不同单词的字符分组为一个字符

由于PDF表格中的字符位置非常接近,因此它们被合并为一个单词,因此Camelot无法正确检测列。在这种情况下,可以指定列分隔符以获取表。要获取列分隔符的x坐标,可以查看。此外,可以指定
split_text=True
沿指定的列分隔符剪切单词。下面是代码(我通过使用
$camelot stream-plot text m27.PDF
)在PDF中创建文本的matplotlib绘图来获得x坐标):

使用CLI:

$camelot--output m27.csv--format csv-split stream-C 72,95209327442529566606683 m27.pdf

使用API:

>>> import camelot
>>> tables = camelot.read_pdf('m27.pdf', flavor='stream', columns=['72,95,209,327,442,529,566,606,683'], split_text=True)

我有类似的问题,但我的pdf是表的图像,这个大表的每一行都有不同的大小,我还收到了一个错误:
UserWarning:page-1上找不到表
任何ide如何解决?你认为这与这些行的大小有关吗?我有类似的问题,但我的pdf是表的图像,这个大表的每行大小不同,我还收到一个错误:
UserWarning:page-1上找不到表
任何ide如何解决?你认为这和那些线的尺寸有关吗?