Sorting 使用pdf中的前几行文本批量重命名pdf_Sorting_Pdf_Ocr_Batch Processing

Sorting 使用pdf中的前几行文本批量重命名pdf

sorting pdf

Sorting 使用pdf中的前几行文本批量重命名pdf,sorting,pdf,ocr,batch-processing,Sorting,Pdf,Ocr,Batch Processing,我有数千张pdf，基本上是来自供应商的采购订单，标题为20130121.00005.pdf。由于同一公司的文件夹中有多个采购订单，因此我想根据供应商对文件进行分组。pdf是OCR格式的，所以我在想，如果我可以提取pdf的前几行并使用该文本重命名pdf，我就可以仅根据标题对pdf进行分组。用一个简单的脚本或类似的东西能做到这一点吗？我不是一个很好的开发者。感谢您的帮助。在一个简单的编辑程序（如记事本）中打开一些文件，看看是否可以看到要将文件重命名为所需供应商名称的文本。如果你能看到数据，任务应该很

我有数千张pdf，基本上是来自供应商的采购订单，标题为20130121.00005.pdf。由于同一公司的文件夹中有多个采购订单，因此我想根据供应商对文件进行分组。pdf是OCR格式的，所以我在想，如果我可以提取pdf的前几行并使用该文本重命名pdf，我就可以仅根据标题对pdf进行分组。用一个简单的脚本或类似的东西能做到这一点吗？我不是一个很好的开发者。感谢您的帮助。

在一个简单的编辑程序（如记事本）中打开一些文件，看看是否可以看到要将文件重命名为所需供应商名称的文本。如果你能看到数据，任务应该很简单。我可能会选择C并允许将一个文件夹中的文件放在一个图标上，但其他语言也一样简单。每个文件都将被打开，读取几行，关闭文件，并进行系统调用以创建目录并移动文件。奇怪的文件不会被移动。关键是.pdf文件中的数据是否为可读格式，即Checked格式。前几行如下，但内容不是文本可读格式：“%PDF-1.6%ñù÷3.4ö6 0 obj流”，然后是二进制文件。要将二进制文件转换为文本，需要对.PDF进行解压缩或解释。文本可用后，将重命名和移动原始文件，并删除未压缩或已解释的文件，然后打开、处理和移动下一个文件。可以解压缩文件或解释文件。pfdtk更容易处理。使用pdftk解压.pdf文件，然后再次查找所需的文本，如果仍然看不到，则可能需要ghostscript。