Python 如何在使用Poppler utils从PDF转换为文本时保留格式和删除隐藏数据
我有一个PDF格式如下Python 如何在使用Poppler utils从PDF转换为文本时保留格式和删除隐藏数据,python,python-3.x,poppler,Python,Python 3.x,Poppler,我有一个PDF格式如下 **Cutomer PO number Invoice Date1 Date2 Currency** 11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00 因此,我使用将pdf转换为文本 pdftotext -layout -f sample.pdf sample.txt 问题是,该行溢出到下一行,如下所示 11235 po-689573/gqmr312
**Cutomer PO number Invoice Date1 Date2 Currency**
11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00
因此,我使用将pdf转换为文本
pdftotext -layout -f sample.pdf sample.txt
问题是,该行溢出到下一行,如下所示
11235 po-689573/gqmr312
IN-345 30/12/2018 11/01/2019 200,234.00
11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00
我希望波普勒不要把所有隐藏的文本gqmr312
和IN-345
并在一行中返回所有内容
与pdf格式类似,如下所示
11235 po-689573/gqmr312
IN-345 30/12/2018 11/01/2019 200,234.00
11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00
有没有一种方法可以在python中实现这一点