Pdf 表检测算法 上下文

Pdf 表检测算法 上下文,pdf,information-extraction,Pdf,Information Extraction,我有一堆PDF文件。其中一些是扫描的(即图像)。它们由文本+图片+表格组成 我想把表格转换成CSV文件 当前计划: 1) 运行Tesseract OCR以获取所有文档的文本 2) ???运行某种类型的表检测算法 3) 提取行/列/单元格以及其中的文本 问题: 是否有一些标准的“表格提取算法”可供使用 谢谢 Abbyy Fine Reader包括表检测,将是最简单的方法。它可以扫描、导入PDF、TIFF等。当自动检测失败时,您还可以手动调整表格和列 www.abbyy.com-您应该能够下载试用版

我有一堆PDF文件。其中一些是扫描的(即图像)。它们由文本+图片+表格组成

我想把表格转换成CSV文件

当前计划: 1) 运行Tesseract OCR以获取所有文档的文本

2) ???运行某种类型的表检测算法

3) 提取行/列/单元格以及其中的文本

问题: 是否有一些标准的“表格提取算法”可供使用


谢谢

Abbyy Fine Reader包括表检测,将是最简单的方法。它可以扫描、导入PDF、TIFF等。当自动检测失败时,您还可以手动调整表格和列

www.abbyy.com-您应该能够下载试用版,您还将发现OCR结果比Tesseract准确得多,这也将为您节省大量时间

尝试自己写一些东西会受到影响,因为有太多不同类型的表格需要处理。即:有线、无线、阴影、多线、不同路线、页眉、页脚等


祝你好运。

我用更合适的标签和替换了不合适的标签。这个问题显然是关于从PDF文件中提取信息,而不是数据的统计分析(如数据挖掘中所做的)。