视觉线条上的PDF拆分

视觉线条上的PDF拆分,pdf,ocr,edit,batch-processing,Pdf,Ocr,Edit,Batch Processing,我需要有关以下问题的信息: 上下文:我在文件夹中有很多歌曲。文件夹中的歌曲数量已导致纸张中的光环降级。如果我得到另一个环形文件夹,这将得到解决,但我现在数到2,如果我需要带着它们,任何更多的都将是一个麻烦 我计划将所有页面扫描为PDF格式。希望这将花费最多的时间。页面的格式如图所示。您总是有一首歌曲的编号,其中的和弦现在作为标题呈现。当一首歌结束时,下一首歌将出现一条黑线。像这样,我们每页有2列 目标:我希望每首歌有一个前缀XXX.pdf,其中XXX是数字。是的,目前有超过700首歌曲 我需要的

我需要有关以下问题的信息:

上下文:我在文件夹中有很多歌曲。文件夹中的歌曲数量已导致纸张中的光环降级。如果我得到另一个环形文件夹,这将得到解决,但我现在数到2,如果我需要带着它们,任何更多的都将是一个麻烦

我计划将所有页面扫描为PDF格式。希望这将花费最多的时间。页面的格式如图所示。您总是有一首歌曲的编号,其中的和弦现在作为标题呈现。当一首歌结束时,下一首歌将出现一条黑线。像这样,我们每页有2列

目标:我希望每首歌有一个前缀XXX.pdf,其中XXX是数字。是的,目前有超过700首歌曲

我需要的是:

在中间黑线上拆分PDF 将拆分的PDF连接到多个PDF,因为可以在不同的PDF上打印歌曲 在水平线上拆分,以正确编号分隔PDF 可选:拉直PDF,使其非常笔直 我一直在寻找能够使用OCR进行批处理的程序,但没有找到能够在可视线上拆分的程序。这就是为什么我想为自己/开源社区编写此代码。所以我是一个程序员,我知道OCR的存在,但我绝对没有这方面的经验。我不知道从哪里开始寻找,也不知道用哪种编程语言可以做到这一点。感谢您的帮助


我将开始扫描我的页面

如果要拆分页面的区域保持不变,请使用图像编辑器,例如,批量处理每个PDF的裁剪。谢谢,水平区域本身是不同的。但是中间线不是这样,也许我可以用这个程序在垂直线上拆分。不客气,如果你找到了一个解决方案,请不要忘记回来发布一个答案来帮助社区。如果中间的一行没有什么不同,就从这一行开始,然后按照第2-3行a组和第4-5行B组对结果文件进行分组,并分别处理每组。