用Python运行Acrobat

用Python运行Acrobat,python,adobe,acrobat,Python,Adobe,Acrobat,我正在使用AdobeAcrobatPro以XML格式从PDF中提取信息。Acrobat做得特别好。我想从大约一千个文档中提取信息,并用这些信息做一些事情,所以手工使用Acrobat会很烦人。是否有从任何公共语言(理想情况下是Python)调用Acrobat函数(即另存为XML)的插件?也许您可以看看?它允许python引用Adobe PDF。还允许pdf xml提取。我知道perl可以做到这一点,因为我以前自己也使用过它,下面是对该模块的引用 例如: from pyPdf import PdfF

我正在使用AdobeAcrobatPro以XML格式从PDF中提取信息。Acrobat做得特别好。我想从大约一千个文档中提取信息,并用这些信息做一些事情,所以手工使用Acrobat会很烦人。是否有从任何公共语言(理想情况下是Python)调用Acrobat函数(即另存为XML)的插件?

也许您可以看看?它允许python引用Adobe PDF。还允许pdf xml提取。我知道perl可以做到这一点,因为我以前自己也使用过它,下面是对该模块的引用

例如:

from pyPdf import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(file("document1.pdf", "rb"))

# print the title of document1.pdf
print "title = %s" % (input1.getDocumentInfo().title)

# add page 1 from input1 to output document, unchanged
output.addPage(input1.getPage(0))

# add page 2 from input1, but rotated clockwise 90 degrees
output.addPage(input1.getPage(1).rotateClockwise(90))

# add page 3 from input1, rotated the other way:
output.addPage(input1.getPage(2).rotateCounterClockwise(90))
# alt: output.addPage(input1.getPage(2).rotateClockwise(270))

# add page 4 from input1, but first add a watermark from another pdf:
page4 = input1.getPage(3)
watermark = PdfFileReader(file("watermark.pdf", "rb"))
page4.mergePage(watermark.getPage(0))

# add page 5 from input1, but crop it to half size:
page5 = input1.getPage(4)
page5.mediaBox.upperRight = (
    page5.mediaBox.getUpperRight_x() / 2,
    page5.mediaBox.getUpperRight_y() / 2
)
output.addPage(page5)

# print how many pages input1 has:
print "document1.pdf has %s pages." % input1.getNumPages()

# finally, write "output" to document-output.pdf
outputStream = file("document-output.pdf", "wb")
output.write(outputStream)
outputStream.close()

再看看这个问题:。在PDF中描述XML解析等。如果您在Windows上,可以使用DDE命令与Acrobat对话。该模块支持DDE调用,或者您可以试试单机绑定


但你必须弄清楚发送给Acrobat的请求。(这是一些随机文档,但没有提到XML)。看起来命令会随着版本的变化而变化(或者至少有些东西会中断),所以请注意版本。祝你好运。

sorta。。你正在寻找xcom/dll的东西,我想。。。这有点复杂。。。(我怀疑你能否跨平台……至少不容易)