Python 如何在使用Poppler utils从PDF转换为文本时保留格式和删除隐藏数据

Python 如何在使用Poppler utils从PDF转换为文本时保留格式和删除隐藏数据,python,python-3.x,poppler,Python,Python 3.x,Poppler,我有一个PDF格式如下 **Cutomer PO number Invoice Date1 Date2 Currency** 11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00 因此,我使用将pdf转换为文本 pdftotext -layout -f sample.pdf sample.txt 问题是,该行溢出到下一行,如下所示 11235 po-689573/gqmr312

我有一个PDF格式如下

**Cutomer PO number Invoice  Date1  Date2     Currency**

11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00
因此,我使用将pdf转换为文本

pdftotext -layout -f sample.pdf sample.txt
问题是,该行溢出到下一行,如下所示

11235 po-689573/gqmr312
                       IN-345 30/12/2018 11/01/2019 200,234.00
11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00
我希望波普勒不要把所有隐藏的文本
gqmr312
IN-345

并在一行中返回所有内容

与pdf格式类似,如下所示

11235 po-689573/gqmr312
                       IN-345 30/12/2018 11/01/2019 200,234.00
11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00
有没有一种方法可以在python中实现这一点