Sorting 使用pdf中的前几行文本批量重命名pdf

Sorting 使用pdf中的前几行文本批量重命名pdf,sorting,pdf,ocr,batch-processing,Sorting,Pdf,Ocr,Batch Processing,我有数千张pdf,基本上是来自供应商的采购订单,标题为20130121.00005.pdf。由于同一公司的文件夹中有多个采购订单,因此我想根据供应商对文件进行分组。pdf是OCR格式的,所以我在想,如果我可以提取pdf的前几行并使用该文本重命名pdf,我就可以仅根据标题对pdf进行分组。用一个简单的脚本或类似的东西能做到这一点吗?我不是一个很好的开发者。感谢您的帮助。在一个简单的编辑程序(如记事本)中打开一些文件,看看是否可以看到要将文件重命名为所需供应商名称的文本。如果你能看到数据,任务应该很

我有数千张pdf,基本上是来自供应商的采购订单,标题为20130121.00005.pdf。由于同一公司的文件夹中有多个采购订单,因此我想根据供应商对文件进行分组。pdf是OCR格式的,所以我在想,如果我可以提取pdf的前几行并使用该文本重命名pdf,我就可以仅根据标题对pdf进行分组。用一个简单的脚本或类似的东西能做到这一点吗?我不是一个很好的开发者。感谢您的帮助。

在一个简单的编辑程序(如记事本)中打开一些文件,看看是否可以看到要将文件重命名为所需供应商名称的文本。如果你能看到数据,任务应该很简单。我可能会选择C并允许将一个文件夹中的文件放在一个图标上,但其他语言也一样简单。每个文件都将被打开,读取几行,关闭文件,并进行系统调用以创建目录并移动文件。奇怪的文件不会被移动。关键是.pdf文件中的数据是否为可读格式,即Checked格式。前几行如下,但内容不是文本可读格式:“%PDF-1.6%ñù÷3.4ö6 0 obj流”,然后是二进制文件。要将二进制文件转换为文本,需要对.PDF进行解压缩或解释。文本可用后,将重命名和移动原始文件,并删除未压缩或已解释的文件,然后打开、处理和移动下一个文件。可以解压缩文件或解释文件。pfdtk更容易处理。使用pdftk解压.pdf文件,然后再次查找所需的文本,如果仍然看不到,则可能需要ghostscript。