Python PDF miner，错误的新线检测_Python_Pdfminer

Python PDF miner，错误的新线检测

python

Python PDF miner，错误的新线检测,python,pdfminer,Python,Pdfminer,我使用以下代码从PDF获取文本数据： def pdf_to_txt(path): manager = PDFResourceManager() retstr = BytesIO() layout = LAParams(all_texts=True) device = TextConverter(manager, retstr, laparams=layout) filepath = open(path, 'rb') interpreter

我使用以下代码从PDF获取文本数据：

def pdf_to_txt(path):    
    manager = PDFResourceManager()
    retstr = BytesIO()
    layout = LAParams(all_texts=True)
    device = TextConverter(manager, retstr, laparams=layout)
    filepath = open(path, 'rb')
    interpreter = PDFPageInterpreter(manager, device)
    for page in PDFPage.get_pages(filepath, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    filepath.close()
    device.close()
    retstr.close()
    return text

在我的PDF文件中，我有行内分隔符选项卡示例（我认为这是选项卡，因为两个单词位于同一列单元格中，分隔符有多个空格）：

你好，我是

PDF miner正在将此行转换为：

    Hello
    this is

预期产出：

Hello this is

有没有人知道如何为这个PDFminer设置额外的分隔符以避免创建新行

谢谢

这是一个PDF中的错误为了解决它，我调整了线的坐标来比较它们，更多信息可以在这里找到：

我认为这是一个错误，所以请提交一份错误报告。如果你真的想自己解决这个问题，你必须提供一个解决方案。