在PDF'中提取标题和特定目录;s

在PDF'中提取标题和特定目录;s,pdf,publishing,Pdf,Publishing,我需要提取每个PDF的标题和特定内容及其页面。 例如,我有一个满是PDF的文件夹,如果有,我需要在目录中找到一个名为“增强”的标题。如果有增强内容,通常在第一页复制PDF标题,复制增强部分,并将其作为增强年表放在另一个PDF中 首先需要从这些PDF中提取带有坐标的文本块。为此,您可以使用您选择的PDF处理软件 然后,您需要分析提取的块,并检测哪些块进入增强部分。这是最难的部分。我怀疑是否有一个软件可以为你做这种开箱即用的分析。对不起 请注意,PDF中的文本通常存储在块中,而不是单词或句子中。每个

我需要提取每个PDF的标题和特定内容及其页面。
例如,我有一个满是PDF的文件夹,如果有,我需要在目录中找到一个名为“增强”的标题。如果有增强内容,通常在第一页复制PDF标题,复制增强部分,并将其作为增强年表放在另一个PDF中

首先需要从这些PDF中提取带有坐标的文本块。为此,您可以使用您选择的PDF处理软件

然后,您需要分析提取的块,并检测哪些块进入增强部分。这是最难的部分。我怀疑是否有一个软件可以为你做这种开箱即用的分析。对不起

请注意,PDF中的文本通常存储在块中,而不是单词或句子中。每个区块是一个或多个字符。它可能是一个字母或一个半单词。对于构成块的内容没有任何保证