Parsing 从ODP或ODF文件中提取结构数据
我试图提取ODP(OpenDocument Presentation)文件中的信息层次结构:标题、字幕、正文 你知道有什么工具或技术可以完成这项工作吗 否则,是否有办法解析这些ODP文档以提取样式信息? 因此,我可以稍后从其样式推断文档结构Parsing 从ODP或ODF文件中提取结构数据,parsing,structure,extract,data-extraction,opendocument,Parsing,Structure,Extract,Data Extraction,Opendocument,我试图提取ODP(OpenDocument Presentation)文件中的信息层次结构:标题、字幕、正文 你知道有什么工具或技术可以完成这项工作吗 否则,是否有办法解析这些ODP文档以提取样式信息? 因此,我可以稍后从其样式推断文档结构 恐怕ODP文件中XML文件的结构可能取决于软件或版本。因此,我宁愿找到一个高级解决方案,也不愿直接解析这个XML文件。因为我找不到任何能够提取大纲、标题、文本的工具。。。通过演示文件,我创建了一个支持ODP、PPTX和beamer文件的开源API,它支持:
恐怕ODP文件中XML文件的结构可能取决于软件或版本。因此,我宁愿找到一个高级解决方案,也不愿直接解析这个XML文件。因为我找不到任何能够提取大纲、标题、文本的工具。。。通过演示文件,我创建了一个支持ODP、PPTX和beamer文件的开源API,它支持:
- 幻灯片标题提取
- 幻灯片正文文本提取
- 命名实体识别(非认证)
- 强调文本识别
- URL识别
- 结构检测与轮廓生成
- 识别以下silde类型:
- 导言
- 结论
- 定义
- 范例
- 目录
- 参考资料
- 节头
有关更多信息,请查看。XML的结构由OpenDocument XML标准定义。因此,它将不依赖于“软件”。但是,本标准有不同的版本,当前版本为1.2,请参见以下示例: