从PDF中提取xdp或xfa

从PDF中提取xdp或xfa,pdf,adobe,xfa,xdp-pdf,Pdf,Adobe,Xfa,Xdp Pdf,我用AdobeLiveCycle设计器创建了一个PDF表单。我现在正努力从PDF中以编程方式提取数据,直到数据填写完毕 我尝试使用poppler(qt4绑定,但我想这并不重要),但显然poppler无法处理XFA表单。虽然evince和Okula能够显示表单 据我所知,PDF包含一个XDP,而XDP又包含XFA表单。我的问题是,如何从PDF中提取数据 如果有库,C++、java、python或php是我的选择。 组成XFA的XML文档(以XDP格式)存储为 XFA键中的值。AcroForm词典是

我用AdobeLiveCycle设计器创建了一个PDF表单。我现在正努力从PDF中以编程方式提取数据,直到数据填写完毕

我尝试使用poppler(qt4绑定,但我想这并不重要),但显然poppler无法处理XFA表单。虽然evince和Okula能够显示表单

据我所知,PDF包含一个XDP,而XDP又包含XFA表单。我的问题是,如何从PDF中提取数据

如果有库,C++、java、python或php是我的选择。

组成XFA的XML文档(以XDP格式)存储为<强> XFA<强>键中的值。AcroForm词典是从目录词典(PDF文档的根中引用的

XFA值可以是流或流数组。如果是流,则包含整个XML文档。如果是数组,则不同的流包含单独的XDP数据包。连接它们将得到完整的XML文档

XDP数据包之一是数据集数据包。实际的表单数据将在这个数据包的子元素中:xfa:data。例如:

<xfa:dataSets xmlns:xfa="http://www.xfa.org/schema/xfa-data/1.0/">
  <xfa:data>
    <!-- arbitrary XML data, e.g.: -->
    <Employee>
      <FirstName>John</FirstName>
      <Name>Doe</Name>
    </Employee>
  </xfa:data>
</xfa:dataSets>
或者仅以
org.w3c.dom.Node
的形式获取数据集数据包:

org.w3c.dom.Node datasets = xfa.getDatasetsNode();

你成功了吗?没有。但是客户的要求已经改变了,这就是为什么我不再追求它的原因。我想用php从pdf中提取xfa。请给出一些想法。我想使用pdftk从pdf获取XFA数据。
org.w3c.dom.Node datasets = xfa.getDatasetsNode();