Python PDF miner,错误的新线检测
我使用以下代码从PDF获取文本数据:Python PDF miner,错误的新线检测,python,pdfminer,Python,Pdfminer,我使用以下代码从PDF获取文本数据: def pdf_to_txt(path): manager = PDFResourceManager() retstr = BytesIO() layout = LAParams(all_texts=True) device = TextConverter(manager, retstr, laparams=layout) filepath = open(path, 'rb') interpreter
def pdf_to_txt(path):
manager = PDFResourceManager()
retstr = BytesIO()
layout = LAParams(all_texts=True)
device = TextConverter(manager, retstr, laparams=layout)
filepath = open(path, 'rb')
interpreter = PDFPageInterpreter(manager, device)
for page in PDFPage.get_pages(filepath, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
filepath.close()
device.close()
retstr.close()
return text
在我的PDF文件中,我有行内分隔符选项卡示例(我认为这是选项卡,因为两个单词位于同一列单元格中,分隔符有多个空格):
你好,我是
PDF miner正在将此行转换为:
Hello
this is
预期产出:
Hello this is
有没有人知道如何为这个PDFminer设置额外的分隔符以避免创建新行
谢谢 这是一个PDF中的错误为了解决它,我调整了线的坐标来比较它们,更多信息可以在这里找到:我认为这是一个错误,所以请提交一份错误报告。如果你真的想自己解决这个问题,你必须提供一个解决方案。