Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/date/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python PDF miner,错误的新线检测_Python_Pdfminer - Fatal编程技术网

Python PDF miner,错误的新线检测

Python PDF miner,错误的新线检测,python,pdfminer,Python,Pdfminer,我使用以下代码从PDF获取文本数据: def pdf_to_txt(path): manager = PDFResourceManager() retstr = BytesIO() layout = LAParams(all_texts=True) device = TextConverter(manager, retstr, laparams=layout) filepath = open(path, 'rb') interpreter

我使用以下代码从PDF获取文本数据:

def pdf_to_txt(path):    
    manager = PDFResourceManager()
    retstr = BytesIO()
    layout = LAParams(all_texts=True)
    device = TextConverter(manager, retstr, laparams=layout)
    filepath = open(path, 'rb')
    interpreter = PDFPageInterpreter(manager, device)
    for page in PDFPage.get_pages(filepath, check_extractable=True):
        interpreter.process_page(page)
    text = retstr.getvalue()
    filepath.close()
    device.close()
    retstr.close()
    return text
在我的PDF文件中,我有行内分隔符选项卡示例(我认为这是选项卡,因为两个单词位于同一列单元格中,分隔符有多个空格):
你好,我是

PDF miner正在将此行转换为:

    Hello
    this is
预期产出:

Hello this is
有没有人知道如何为这个PDFminer设置额外的分隔符以避免创建新行


谢谢

这是一个PDF中的错误为了解决它,我调整了线的坐标来比较它们,更多信息可以在这里找到:

我认为这是一个错误,所以请提交一份错误报告。如果你真的想自己解决这个问题,你必须提供一个解决方案。