如何使用python将双栏pdf转换为word?
在我的项目中,我需要将pdf转换为双栏格式。基本上,我需要将它们转换为文本文件,我使用了如何使用python将双栏pdf转换为word?,python,pdf,pdfminer,Python,Pdf,Pdfminer,在我的项目中,我需要将pdf转换为双栏格式。基本上,我需要将它们转换为文本文件,我使用了pdfminer,但顺序完全混乱(当涉及到双栏时,即IEEE论文)。我刚刚试着用docx将一个双栏word(docx)文件转换成文本,它至少在文本(不是表格和方程)上工作得很好。 这就是为什么我在想,我是否可以像一些在线工具,即Nitro Cloud那样,最初将pdf转换为word来维护完整的顺序。但是我需要使用python编程/python包进行转换 任何人都可以提供一些见解。 使用pdfminer(我最初
pdfminer
,但顺序完全混乱(当涉及到双栏时,即IEEE论文)。我刚刚试着用docx将一个双栏word(docx)文件转换成文本,它至少在文本(不是表格和方程)上工作得很好。
这就是为什么我在想,我是否可以像一些在线工具,即Nitro Cloud那样,最初将pdf转换为word来维护完整的顺序。但是我需要使用python编程/python包进行转换
任何人都可以提供一些见解。
使用pdfminer(我最初尝试过)编写代码
(pdf示例:)您是否可以编辑该问题,以包含您在pdfminer中尝试的Python代码。还有一个指向示例PDF文件的链接。您是否可以编辑该问题,以包含您在pdfminer中尝试的Python代码。还有一个指向示例PDF文件的链接。
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO
from cStringIO import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
process_pdf(rsrcmgr, device, fp)
fp.close()
device.close()
str = retstr.getvalue()
retstr.close()
return str
p1="C:\\sample\\samp.pdf"
c1=convert_pdf_to_txt(p1)