SAS:读取PDF文件

SAS:读取PDF文件,pdf,binary,sas,Pdf,Binary,Sas,我正在寻找方法来阅读在一个PDF文件与SAS。显然,这不是基本的功能,在互联网上几乎找不到。(更不用说谷歌在你的搜索中使用PDF并不容易,因为它还为你提供了有关其他内容的PDF文档链接。) 唯一可以找到的是人们正在寻找将数据从PDF导入数据集的方法。对我来说,这甚至不是必要的。我希望能够在一个大字符变量中读取PDF文件的内容。如果可能的话,最好能够读入文件的二进制数据 SAS是否可以实现这一点?如何实现?(我让它在Access VBA中工作,但在SAS中找不到任何类似的方法。) (最终,目的是将

我正在寻找方法来阅读在一个PDF文件与SAS。显然,这不是基本的功能,在互联网上几乎找不到。(更不用说谷歌在你的搜索中使用PDF并不容易,因为它还为你提供了有关其他内容的PDF文档链接。)

唯一可以找到的是人们正在寻找将数据从PDF导入数据集的方法。对我来说,这甚至不是必要的。我希望能够在一个大字符变量中读取PDF文件的内容。如果可能的话,最好能够读入文件的二进制数据

SAS是否可以实现这一点?如何实现?(我让它在Access VBA中工作,但在SAS中找不到任何类似的方法。)


(最终,目的是将其转换为base64,并将base64字符串转换为XML文档。)

您可能无法将整个文件读入一个字符变量,因为字符变量的最大大小约为33 KB。不过,一次只读一行的简单方法如下:

%let pdfFileName = Test.pdf;
%let lineSize = 2000;

data base;
   format text_line $&lineSize..;
   infile "&pdfFileName" lrecl=&lineSize;
   input text_line $;
run;

这要求您提前大致了解最大记录长度,但您可以在读取文件之前编写额外的代码来确定最大记录大小。在本例中,每行文本都被读入一个名为“text_line”的字符变量。从中,您可以在输入行中使用RETAIN语句或双拖尾(@@)一次处理多行。SAS网站上有大量关于如何从各种类型的输入文件中读取和处理文本的文档。

您可能无法将整个文件读入一个字符变量,因为字符变量的最大大小约为33 KB。不过,一次只读一行的简单方法如下:

%let pdfFileName = Test.pdf;
%let lineSize = 2000;

data base;
   format text_line $&lineSize..;
   infile "&pdfFileName" lrecl=&lineSize;
   input text_line $;
run;
这要求您提前大致了解最大记录长度,但您可以在读取文件之前编写额外的代码来确定最大记录大小。在本例中,每行文本都被读入一个名为“text_line”的字符变量。从中,您可以在输入行中使用RETAIN语句或双拖尾(@@)一次处理多行。SAS网站上有大量关于如何从各种类型的输入文件中读取和处理文本的文档