如何使用pdfbox库中的PDFMarkedContentExtractor类?

如何使用pdfbox库中的PDFMarkedContentExtractor类?,pdfbox,Pdfbox,我使用pdfbox库从任意PDF文件中提取文本。我想知道如何使用这个库从pdf中提取一些特定的文本 据我所知,我应该为此任务使用标记内容功能。 这是一节课。使用它的getMarkedContent方法,我可以得到PDMarkedContent对象,然后,使用方法getContents,我可以得到我需要的真实内容。 我说得对吗 好的,但是我如何指定文档PDFMarkedContentExtractor应该使用什么作为源呢?据我所知,PDFMarkedContentExtract专门用于PDF中的标

我使用pdfbox库从任意PDF文件中提取文本。我想知道如何使用这个库从pdf中提取一些特定的文本

据我所知,我应该为此任务使用标记内容功能。 这是一节课。使用它的
getMarkedContent
方法,我可以得到
PDMarkedContent
对象,然后,使用方法
getContents
,我可以得到我需要的真实内容。 我说得对吗


好的,但是我如何指定文档
PDFMarkedContentExtractor
应该使用什么作为源呢?

据我所知,PDFMarkedContentExtract专门用于PDF中的标记内容。根据你的评论和描述,我相信你只是想概括地提取文本。如果是这种情况,我相信您需要改用PDFTextStripper。

您确定源PDF文件确实包含对您的任务有用的标记内容吗?如果您不确定,请共享一个示例文件。我在中检查了几个文件,它们的/MarkedInfo=True。此外,我可以看到StructureTreeRoot元素。但是我现在不知道如何使用这些元素为一些文本提取器指定所需的元素。例如,我尝试使用。你说你想提取没有脚注和其他无用信息的页面内容。不幸的是,我在你的示例文档中没有看到很多脚注。你是否有一个认真的示例文件,你真的想从中提取文本而不需要脚注等。?或者你真的是指任意的PDF文件吗?抱歉,描述不明确。我的意思是没有我想要从中提取文本的特殊文档。我想知道如何从不同的文档中提取文本。实际上,提取没有脚注的文本只是任务之一。另一种方法是从所需的段落或章节中提取文本。所以,你可以试试。但正如我所说,我希望能够处理任意PDF文件。我的意思是,我不想从任何特殊的文档中提取文本-如果你不能保证这些文件是PDF文件,那么由于标记信息的不同生成,尝试使用标记将使你一事无成。