Python 为什么在pdfMiner.six中从pdf转换的html文档中，参数图会重叠？_Python_Html_Pdfminer

Python 为什么在pdfMiner.six中从pdf转换的html文档中，参数图会重叠？

python html

Python 为什么在pdfMiner.six中从pdf转换的html文档中，参数图会重叠？,python,html,pdfminer,Python,Html,Pdfminer,我正试图弄清楚pdfMiner.six是如何工作的（当前稳定的Python3.6版本）。文档中没有太多的示例或教程，所以我将尝试错误。幸运的是，repo确实包含了一些我可以使用的示例文件。我确认这些样本在当前的稳定版本下应该可以正常工作我试图提取既可挖掘又可读的文本。简言之，我想将这些PDF转换为html文件，格式基本保持不变。然而，示例pdf中的段落不知何故被覆盖，使文本无法阅读。我使用了LAParams，使用了不同的line_overlap、line_margin和box_flow值，但它

我正试图弄清楚pdfMiner.six是如何工作的（当前稳定的Python3.6版本）。文档中没有太多的示例或教程，所以我将尝试错误。幸运的是，repo确实包含了一些我可以使用的示例文件。我确认这些样本在当前的稳定版本下应该可以正常工作

我试图提取既可挖掘又可读的文本。简言之，我想将这些PDF转换为html文件，格式基本保持不变。然而，示例pdf中的段落不知何故被覆盖，使文本无法阅读。我使用了LAParams，使用了不同的line_overlap、line_margin和box_flow值，但它们似乎都不能解决问题

以下是我的代码和结果的屏幕截图：

with open(pdf_file, 'rb') as fin:
    extract_text_to_fp(fin, output_string,
                       output_dir=output_dir,
                       laparams=LAParams(line_overlap=0.7, line_margin=0.7, boxes_flow=-1), output_type='html', codec='UTF-8')
    with open(converted_file, 'wb') as fout:
        fout.write(output_string.getvalue())