Pdf 表检测算法上下文_Pdf_Information Extraction

Pdf 表检测算法上下文

pdf

Pdf 表检测算法上下文,pdf,information-extraction,Pdf,Information Extraction,我有一堆PDF文件。其中一些是扫描的（即图像）。它们由文本+图片+表格组成我想把表格转换成CSV文件当前计划： 1）运行Tesseract OCR以获取所有文档的文本 2）？？？运行某种类型的表检测算法 3）提取行/列/单元格以及其中的文本问题: 是否有一些标准的“表格提取算法”可供使用谢谢 Abbyy Fine Reader包括表检测，将是最简单的方法。它可以扫描、导入PDF、TIFF等。当自动检测失败时，您还可以手动调整表格和列 www.abbyy.com-您应该能够下载试用版

我有一堆PDF文件。其中一些是扫描的（即图像）。它们由文本+图片+表格组成

我想把表格转换成CSV文件

当前计划： 1）运行Tesseract OCR以获取所有文档的文本

2）？？？运行某种类型的表检测算法

3）提取行/列/单元格以及其中的文本

问题: 是否有一些标准的“表格提取算法”可供使用

谢谢

Abbyy Fine Reader包括表检测，将是最简单的方法。它可以扫描、导入PDF、TIFF等。当自动检测失败时，您还可以手动调整表格和列

www.abbyy.com-您应该能够下载试用版，您还将发现OCR结果比Tesseract准确得多，这也将为您节省大量时间

尝试自己写一些东西会受到影响，因为有太多不同类型的表格需要处理。即：有线、无线、阴影、多线、不同路线、页眉、页脚等

祝你好运。

我用更合适的标签和替换了不合适的标签。这个问题显然是关于从PDF文件中提取信息，而不是数据的统计分析（如数据挖掘中所做的）。