从PDF中提取xdp或xfa_Pdf_Adobe_Xfa_Xdp Pdf

从PDF中提取xdp或xfa

pdf adobe

从PDF中提取xdp或xfa,pdf,adobe,xfa,xdp-pdf,Pdf,Adobe,Xfa,Xdp Pdf,我用AdobeLiveCycle设计器创建了一个PDF表单。我现在正努力从PDF中以编程方式提取数据，直到数据填写完毕我尝试使用poppler（qt4绑定，但我想这并不重要），但显然poppler无法处理XFA表单。虽然evince和Okula能够显示表单据我所知，PDF包含一个XDP，而XDP又包含XFA表单。我的问题是，如何从PDF中提取数据如果有库，C++、java、python或php是我的选择。组成XFA的XML文档（以XDP格式）存储为 XFA键中的值。AcroForm词典是

我用AdobeLiveCycle设计器创建了一个PDF表单。我现在正努力从PDF中以编程方式提取数据，直到数据填写完毕

我尝试使用poppler（qt4绑定，但我想这并不重要），但显然poppler无法处理XFA表单。虽然evince和Okula能够显示表单

据我所知，PDF包含一个XDP，而XDP又包含XFA表单。我的问题是，如何从PDF中提取数据

如果有库，C++、java、python或php是我的选择。

组成XFA的XML文档（以XDP格式）存储为<强> XFA<强>键中的值。AcroForm词典是从目录词典（PDF文档的根中引用的

XFA值可以是流或流数组。如果是流，则包含整个XML文档。如果是数组，则不同的流包含单独的XDP数据包。连接它们将得到完整的XML文档

XDP数据包之一是数据集数据包。实际的表单数据将在这个数据包的子元素中：xfa:data。例如：

<xfa:dataSets xmlns:xfa="http://www.xfa.org/schema/xfa-data/1.0/">
  <xfa:data>
    <!-- arbitrary XML data, e.g.: -->
    <Employee>
      <FirstName>John</FirstName>
      <Name>Doe</Name>
    </Employee>
  </xfa:data>
</xfa:dataSets>

或者仅以

org.w3c.dom.Node

的形式获取数据集数据包：

org.w3c.dom.Node datasets = xfa.getDatasetsNode();

你成功了吗？没有。但是客户的要求已经改变了，这就是为什么我不再追求它的原因。我想用php从pdf中提取xfa。请给出一些想法。我想使用pdftk从pdf获取XFA数据。

org.w3c.dom.Node datasets = xfa.getDatasetsNode();