Python 为什么在pdfMiner.six中从pdf转换的html文档中,参数图会重叠?

Python 为什么在pdfMiner.six中从pdf转换的html文档中,参数图会重叠?,python,html,pdfminer,Python,Html,Pdfminer,我正试图弄清楚pdfMiner.six是如何工作的(当前稳定的Python3.6版本)。文档中没有太多的示例或教程,所以我将尝试错误。幸运的是,repo确实包含了一些我可以使用的示例文件。我确认这些样本在当前的稳定版本下应该可以正常工作 我试图提取既可挖掘又可读的文本。简言之,我想将这些PDF转换为html文件,格式基本保持不变。然而,示例pdf中的段落不知何故被覆盖,使文本无法阅读。我使用了LAParams,使用了不同的line_overlap、line_margin和box_flow值,但它

我正试图弄清楚pdfMiner.six是如何工作的(当前稳定的Python3.6版本)。文档中没有太多的示例或教程,所以我将尝试错误。幸运的是,repo确实包含了一些我可以使用的示例文件。我确认这些样本在当前的稳定版本下应该可以正常工作

我试图提取既可挖掘又可读的文本。简言之,我想将这些PDF转换为html文件,格式基本保持不变。然而,示例pdf中的段落不知何故被覆盖,使文本无法阅读。我使用了LAParams,使用了不同的line_overlap、line_margin和box_flow值,但它们似乎都不能解决问题

以下是我的代码和结果的屏幕截图:

with open(pdf_file, 'rb') as fin:
    extract_text_to_fp(fin, output_string,
                       output_dir=output_dir,
                       laparams=LAParams(line_overlap=0.7, line_margin=0.7, boxes_flow=-1), output_type='html', codec='UTF-8')
    with open(converted_file, 'wb') as fout:
        fout.write(output_string.getvalue())