Python 使用Camelot从该PDF提取数据时，未找到表并合并了列文本_Python_Pdf Parsing_Python Camelot

Python 使用Camelot从该PDF提取数据时，未找到表并合并了列文本

python

Python 使用Camelot从该PDF提取数据时，未找到表并合并了列文本,python,pdf-parsing,python-camelot,Python,Pdf Parsing,Python Camelot,当我试图从附加的PDF中提取表格时，我得到一个用户警告：在第1页上找不到表格。然而，当我查看提取的数据时，一些列文本被合并到单个列中。” 我正在使用解析这些PDF 复制步骤：camelot——输出m27.csv——格式化csv流m27.pdf 这里是我试图解析的PDF的链接：PDF只包含将字符放置在二维平面上x，y坐标处的说明，不保留单词、句子或表格的知识卡米洛特用《风帽下》把人物分成单词，把单词分成句子。有时，当字符过于接近时，PDFMiner可以将属于不同单词的字符分组为一个字符由于P

当我试图从附加的PDF中提取表格时，我得到一个

用户警告：在第1页上找不到表格。然而，当我查看提取的数据时，一些列文本被合并到单个列中。”

我正在使用解析这些PDF
复制步骤：camelot——输出m27.csv——格式化csv流m27.pdf

这里是我试图解析的PDF的链接：
PDF只包含将字符放置在二维平面上x，y坐标处的说明，不保留单词、句子或表格的知识
卡米洛特用《风帽下》把人物分成单词，把单词分成句子。有时，当字符过于接近时，PDFMiner可以将属于不同单词的字符分组为一个字符
由于PDF表格中的字符位置非常接近，因此它们被合并为一个单词，因此Camelot无法正确检测列。在这种情况下，可以指定列分隔符以获取表。要获取列分隔符的x坐标，可以查看。此外，可以指定split_text=True
沿指定的列分隔符剪切单词。下面是代码（我通过使用$camelot stream-plot text m27.PDF
）在PDF中创建文本的matplotlib绘图来获得x坐标）：
使用CLI：
$camelot--output m27.csv--format csv-split stream-C 72,95209327442529566606683 m27.pdf

使用API：
>>> import camelot
>>> tables = camelot.read_pdf('m27.pdf', flavor='stream', columns=['72,95,209,327,442,529,566,606,683'], split_text=True)

PDF只包含将字符放置在二维平面上x、y坐标处的说明，不保留单词、句子或表格的知识
卡米洛特用《风帽下》把人物分成单词，把单词分成句子。有时，当字符过于接近时，PDFMiner可以将属于不同单词的字符分组为一个字符
由于PDF表格中的字符位置非常接近，因此它们被合并为一个单词，因此Camelot无法正确检测列。在这种情况下，可以指定列分隔符以获取表。要获取列分隔符的x坐标，可以查看。此外，可以指定split_text=True
沿指定的列分隔符剪切单词。下面是代码（我通过使用$camelot stream-plot text m27.PDF
）在PDF中创建文本的matplotlib绘图来获得x坐标）：
使用CLI：
$camelot--output m27.csv--format csv-split stream-C 72,95209327442529566606683 m27.pdf

使用API：
>>> import camelot
>>> tables = camelot.read_pdf('m27.pdf', flavor='stream', columns=['72,95,209,327,442,529,566,606,683'], split_text=True)

我有类似的问题，但我的pdf是表的图像，这个大表的每一行都有不同的大小，我还收到了一个错误：UserWarning:page-1上找不到表
任何ide如何解决？你认为这与这些行的大小有关吗？我有类似的问题，但我的pdf是表的图像，这个大表的每行大小不同，我还收到一个错误：UserWarning:page-1上找不到表
任何ide如何解决？你认为这和那些线的尺寸有关吗？