Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/80.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 提取/访问嵌入在PDF中的XML文件_R_Xml_Pdf - Fatal编程技术网

R 提取/访问嵌入在PDF中的XML文件

R 提取/访问嵌入在PDF中的XML文件,r,xml,pdf,R,Xml,Pdf,我有一个带有嵌入式XML文件的PDF。我想访问R中嵌入的XML文件 手动解决此问题的一种方法是使用AdobeAcrobat打开PDF文件,然后从中手动保存嵌入的XML文件(请参阅)。然后可以使用包在R中访问保存的XML文件 但是,由于我必须为许多pdf运行此程序,而其余代码都在R中,因此我正在R中寻找解决方案。该包似乎没有提供解决方案,也没有为R实现。似乎pdftools具有pdf\u attachments()函数。使用您提供的示例pdf文件: 库(pdftools) [1]“Aspose.P

我有一个带有嵌入式XML文件的PDF。我想访问R中嵌入的XML文件

手动解决此问题的一种方法是使用AdobeAcrobat打开PDF文件,然后从中手动保存嵌入的XML文件(请参阅)。然后可以使用包在R中访问保存的XML文件


但是,由于我必须为许多pdf运行此程序,而其余代码都在R中,因此我正在R中寻找解决方案。该包似乎没有提供解决方案,也没有为R实现。

似乎
pdftools
具有
pdf\u attachments()
函数。使用您提供的示例pdf文件:

库(pdftools)
[1]“Aspose.Pdf for.NET”

您应该能够以类似的方式提取XML附件。

我可能有一个解决方案-您是否能够提供指向样本pdf的链接,以便使用Dropbox或类似工具进行测试?@AllanCameron我无法共享原始文件,因为它包含敏感数据。我发现了一个示例文件——附件是TXT,不是XML,但是工作流应该是相同的。本质上,我在R(实际上是C++中有一个不错的R接口)编写了PDF库,可以从PDF对象中获得压缩流。例如,您链接的示例pdf中的附加文本文件位于pdf的对象6中,它只是一个短字符串,我通过执行
get_object(“sample.pdf”)、6)$stream
获得,并返回
[1]“Aspose.pdf For.NET”
,根据github,这是正确的。如果看不到自己的pdf,就很难建议您如何提取xml。当然,欢迎您自己尝试-请参阅嵌入是否与附件相同?如果PDF附带了多个文件,则访问每个文件的方式将更改为“txt”