python docx中的高级格式_Python_Python Docx

python docx中的高级格式

python

python docx中的高级格式,python,python-docx,Python,Python Docx,我正在使用docx包从word文档中提取元素，并希望将它们保存为特定的XML格式 doc = docx.Document("sample.docx") paras = doc.paragraphs sample.docx包含标题、标准文本、图像、超链接、列表和表格当我打印出文档中的不同样式时，似乎可以轻松提取标题和标准文本组件。i、 e.以下内容为我提供了样式，如标题、普通、正文、标题2、间隔符、列表段落等 for p in paras: print(p.style.name) 有

我正在使用docx包从word文档中提取元素，并希望将它们保存为特定的XML格式

doc = docx.Document("sample.docx")
paras = doc.paragraphs

sample.docx

包含标题、标准文本、图像、超链接、列表和表格

当我打印出文档中的不同样式时，似乎可以轻松提取标题和标准文本组件。i、 e.以下内容为我提供了样式，如标题、普通、正文、标题2、间隔符、列表段落等

for p in paras:
   print(p.style.name)

有人能告诉我如何提取以下组件吗

图像：如何提取图像？我找到了类似的答案
超链接：如何知道段落中有链接
列表：一些列表提取为
```
列表段落
```
样式，而其他列表未提取
表：我发现对于表，需要提取
```
doc.Tables
```
。但是，如何维护原始文档中元素的顺序呢

在“python docx iter_block_items”上搜索Google，查找上一个关于文档顺序表的资源。因为您正在尝试将文档中的各种实体（如图像）和所有实体转换为xml。尝试将word文档仅作为xml阅读，然后将该xml转换为所需的任何xml格式。也许这会有帮助。尝试读取docx xml，然后根据需要对其进行操作