Parsing 从ODP或ODF文件中提取结构数据

Parsing 从ODP或ODF文件中提取结构数据,parsing,structure,extract,data-extraction,opendocument,Parsing,Structure,Extract,Data Extraction,Opendocument,我试图提取ODP(OpenDocument Presentation)文件中的信息层次结构:标题、字幕、正文 你知道有什么工具或技术可以完成这项工作吗 否则,是否有办法解析这些ODP文档以提取样式信息? 因此,我可以稍后从其样式推断文档结构 恐怕ODP文件中XML文件的结构可能取决于软件或版本。因此,我宁愿找到一个高级解决方案,也不愿直接解析这个XML文件。因为我找不到任何能够提取大纲、标题、文本的工具。。。通过演示文件,我创建了一个支持ODP、PPTX和beamer文件的开源API,它支持:

我试图提取ODP(OpenDocument Presentation)文件中的信息层次结构:标题、字幕、正文

你知道有什么工具或技术可以完成这项工作吗

否则,是否有办法解析这些ODP文档以提取样式信息? 因此,我可以稍后从其样式推断文档结构


恐怕ODP文件中XML文件的结构可能取决于软件或版本。因此,我宁愿找到一个高级解决方案,也不愿直接解析这个XML文件。

因为我找不到任何能够提取大纲、标题、文本的工具。。。通过演示文件,我创建了一个支持ODP、PPTX和beamer文件的开源API,它支持:

  • 幻灯片标题提取
  • 幻灯片正文文本提取
  • 命名实体识别(非认证)
  • 强调文本识别
  • URL识别
  • 结构检测与轮廓生成
  • 识别以下silde类型:
    • 导言
    • 结论
    • 定义
    • 范例
    • 目录
    • 参考资料
    • 节头

有关更多信息,请查看。

XML的结构由OpenDocument XML标准定义。因此,它将不依赖于“软件”。但是,本标准有不同的版本,当前版本为1.2,请参见以下示例: