R 提取/访问嵌入在PDF中的XML文件
我有一个带有嵌入式XML文件的PDF。我想访问R中嵌入的XML文件 手动解决此问题的一种方法是使用AdobeAcrobat打开PDF文件,然后从中手动保存嵌入的XML文件(请参阅)。然后可以使用包在R中访问保存的XML文件R 提取/访问嵌入在PDF中的XML文件,r,xml,pdf,R,Xml,Pdf,我有一个带有嵌入式XML文件的PDF。我想访问R中嵌入的XML文件 手动解决此问题的一种方法是使用AdobeAcrobat打开PDF文件,然后从中手动保存嵌入的XML文件(请参阅)。然后可以使用包在R中访问保存的XML文件 但是,由于我必须为许多pdf运行此程序,而其余代码都在R中,因此我正在R中寻找解决方案。该包似乎没有提供解决方案,也没有为R实现。似乎pdftools具有pdf\u attachments()函数。使用您提供的示例pdf文件: 库(pdftools) [1]“Aspose.P
但是,由于我必须为许多pdf运行此程序,而其余代码都在R中,因此我正在R中寻找解决方案。该包似乎没有提供解决方案,也没有为R实现。似乎
pdftools
具有pdf\u attachments()
函数。使用您提供的示例pdf文件:
库(pdftools)
[1]“Aspose.Pdf for.NET”
您应该能够以类似的方式提取XML附件。我可能有一个解决方案-您是否能够提供指向样本pdf的链接,以便使用Dropbox或类似工具进行测试?@AllanCameron我无法共享原始文件,因为它包含敏感数据。我发现了一个示例文件——附件是TXT,不是XML,但是工作流应该是相同的。本质上,我在R(实际上是C++中有一个不错的R接口)编写了PDF库,可以从PDF对象中获得压缩流。例如,您链接的示例pdf中的附加文本文件位于pdf的对象6中,它只是一个短字符串,我通过执行
get_object(“sample.pdf”)、6)$stream
获得,并返回[1]“Aspose.pdf For.NET”
,根据github,这是正确的。如果看不到自己的pdf,就很难建议您如何提取xml。当然,欢迎您自己尝试-请参阅嵌入是否与附件相同?如果PDF附带了多个文件,则访问每个文件的方式将更改为“txt”