python docx中的高级格式

python docx中的高级格式,python,python-docx,Python,Python Docx,我正在使用docx包从word文档中提取元素,并希望将它们保存为特定的XML格式 doc = docx.Document("sample.docx") paras = doc.paragraphs sample.docx包含标题、标准文本、图像、超链接、列表和表格 当我打印出文档中的不同样式时,似乎可以轻松提取标题和标准文本组件。i、 e.以下内容为我提供了样式,如标题、普通、正文、标题2、间隔符、列表段落等 for p in paras: print(p.style.name) 有

我正在使用docx包从word文档中提取元素,并希望将它们保存为特定的XML格式

doc = docx.Document("sample.docx")
paras = doc.paragraphs 
sample.docx
包含标题、标准文本、图像、超链接、列表和表格

当我打印出文档中的不同样式时,似乎可以轻松提取标题和标准文本组件。i、 e.以下内容为我提供了样式,如标题、普通、正文、标题2、间隔符、列表段落等

for p in paras:
   print(p.style.name)
有人能告诉我如何提取以下组件吗

  • 图像:如何提取图像?我找到了类似的答案
  • 超链接:如何知道段落中有链接
  • 列表:一些列表提取为
    列表段落
    样式,而其他列表未提取
  • 表:我发现对于表,需要提取
    doc.Tables
    。但是,如何维护原始文档中元素的顺序呢

在“python docx iter_block_items”上搜索Google,查找上一个关于文档顺序表的资源。因为您正在尝试将文档中的各种实体(如图像)和所有实体转换为xml。尝试将word文档仅作为xml阅读,然后将该xml转换为所需的任何xml格式。也许这会有帮助。尝试读取docx xml,然后根据需要对其进行操作