如何从pdf格式的论文中提取摘要段落

如何从pdf格式的论文中提取摘要段落,pdf,extract,paragraph,Pdf,Extract,Paragraph,我使用Aspose.pdf.Kit从我的pdf中提取文本,但我想找到哪一段是本文的摘要,并将其保存在数据库中。问题是段落查找不适用于数据库。我认为有一些通用方法可用于检测段落或某些文本处理框架或类似的解决方案。对不起,如果这个问题不适合这个地方,这个问题有点模糊。PDF是否标记了元数据,比如可以跳到的章节号?用PDF查看器打开它,看看是否是。这是一个很好的解决方案,但a没有此工具,我的工具仅提取文本,我的PDF文件可能没有标记元数据:我知道这个限制使得这个任务很难完成,但是这些条件现在已经存在了

我使用Aspose.pdf.Kit从我的pdf中提取文本,但我想找到哪一段是本文的摘要,并将其保存在数据库中。问题是段落查找不适用于数据库。

我认为有一些通用方法可用于检测段落或某些文本处理框架或类似的解决方案。对不起,如果这个问题不适合这个地方,这个问题有点模糊。PDF是否标记了元数据,比如可以跳到的章节号?用PDF查看器打开它,看看是否是。这是一个很好的解决方案,但a没有此工具,我的工具仅提取文本,我的PDF文件可能没有标记元数据:我知道这个限制使得这个任务很难完成,但是这些条件现在已经存在了。你的抽象部分是如何开始的?部分是否以某种方式分隔?如果你发布了PDF的一部分或类似的内容,这将更容易实现。