Python 将PDF转换为docx

Python 将PDF转换为docx,python,api,pdf,docx,file-conversion,Python,Api,Pdf,Docx,File Conversion,如何在使用/不使用python的情况下将PDF转换为docx。实际上,我想自动转换大量文件,所以我需要一个API 我曾使用过以下在线网站: 我无法获得直接使用该api的访问权限您可以尝试,然后使用将HTML转换为docx 实际上,PDF不是一种真正的文档格式,而是一种页面布局格式,因此转换可能会有问题 将PDF转换为文档可能是一项有问题的任务,相反,这将很容易 一种可能的解决方案是将PDF文件另存到扩展名为.docx的所需位置。如果PDF是从docx保存的,这可能会起作用,反之亦然。我是Zam

如何在使用/不使用python的情况下将PDF转换为docx。实际上,我想自动转换大量文件,所以我需要一个API

我曾使用过以下在线网站:

我无法获得直接使用该api的访问权限

您可以尝试,然后使用将HTML转换为docx


实际上,PDF不是一种真正的文档格式,而是一种页面布局格式,因此转换可能会有问题

将PDF转换为文档可能是一项有问题的任务,相反,这将很容易


一种可能的解决方案是将PDF文件另存到扩展名为.docx的所需位置。如果PDF是从docx保存的,这可能会起作用,反之亦然。

我是Zamzar的首席技术官,我们在

我们提供了您可以免费使用的服务,以及Python的代码示例,在这些示例中,您可以非常简单地将PDF文件转换为DOCX:

import requests
from requests.auth import HTTPBasicAuth

api_key = 'YOUR_API_KEY'
endpoint = "https://sandbox.zamzar.com/v1/jobs"
source_file = "/tmp/my.pdf"
target_format = "docx"

file_content = {'source_file': open(source_file, 'rb')}
data_content = {'target_format': target_format}
res = requests.post(endpoint, data=data_content, files=file_content, auth=HTTPBasicAuth(api_key, ''))
print res.json()
然后,您可以查看它之前是什么时候完成的。

尝试一下它有一个包含Curl、PHP、Python和NodeJS示例,并且具有良好的

pdf2docx

单击安装pdf2docx软件包 装置

克隆或下载pdf2docx

 pip install pdf2docx
     or
 # download the package and install your environment
 python setup.py install 
选择1

from pdf2docx import Converter

pdf_file  = r'C:\Users\ABCD\Desktop\XYZ/Document1.pdf'# source file 
docx_file = r'C:\Users\ABCD\Desktop\XYZ/sample.docx'  # destination file

# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()

#Output

Parsing Page 53: 53/53...
Creating Page 53: 53/53...
--------------------------------------------------
Terminated in 6.258919400000195s.
选择2

from pdf2docx import parse

pdf_file  = r'C:\Users\ABCD\Desktop\XYZ/Document2.pdf' # source file
docx_file = r'C:\Users\ABCD\Desktop\XYZ/sample_2.docx' # destination file

# convert pdf to docx
parse(pdf_file, docx_file, start=0, end=None)

# output
Parsing Page 53: 53/53...
Creating Page 53: 53/53...
--------------------------------------------------
Terminated in 5.883666100000482s.

到目前为止,您在代码方面做了哪些尝试?我无法获得任何直接将pdf转换为docx的代码。要获得任何代码-嗯?你试过写什么吗?所以,这不是为了给你写代码,而是为了帮助你编写代码。我想让它自动化,这就是我需要api访问的原因。我想让它自动化,这就是我需要api访问的原因。谢谢Chris,顺便问一下Zamzar,你们如何将docx转换为pdf?大多数付费图书馆显示格式问题,而zamzar显示完美的文件?