如何使用python将双栏pdf转换为word?

如何使用python将双栏pdf转换为word?,python,pdf,pdfminer,Python,Pdf,Pdfminer,在我的项目中,我需要将pdf转换为双栏格式。基本上,我需要将它们转换为文本文件,我使用了pdfminer,但顺序完全混乱(当涉及到双栏时,即IEEE论文)。我刚刚试着用docx将一个双栏word(docx)文件转换成文本,它至少在文本(不是表格和方程)上工作得很好。 这就是为什么我在想,我是否可以像一些在线工具,即Nitro Cloud那样,最初将pdf转换为word来维护完整的顺序。但是我需要使用python编程/python包进行转换 任何人都可以提供一些见解。 使用pdfminer(我最初

在我的项目中,我需要将pdf转换为双栏格式。基本上,我需要将它们转换为文本文件,我使用了
pdfminer
,但顺序完全混乱(当涉及到双栏时,即IEEE论文)。我刚刚试着用docx将一个双栏word(docx)文件转换成文本,它至少在文本(不是表格和方程)上工作得很好。 这就是为什么我在想,我是否可以像一些在线工具,即Nitro Cloud那样,最初将pdf转换为word来维护完整的顺序。但是我需要使用python编程/python包进行转换

任何人都可以提供一些见解。 使用pdfminer(我最初尝试过)编写代码


(pdf示例:)

您是否可以编辑该问题,以包含您在pdfminer中尝试的Python代码。还有一个指向示例PDF文件的链接。您是否可以编辑该问题,以包含您在pdfminer中尝试的Python代码。还有一个指向示例PDF文件的链接。
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO
from cStringIO import StringIO
def convert_pdf_to_txt(path):

   rsrcmgr = PDFResourceManager()
   retstr = StringIO()
   codec = 'utf-8'
   laparams = LAParams()
   device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

   fp = file(path, 'rb')
   process_pdf(rsrcmgr, device, fp)
   fp.close()
   device.close()

   str = retstr.getvalue()
   retstr.close()
   return str
p1="C:\\sample\\samp.pdf" 

c1=convert_pdf_to_txt(p1)