python docx中的高级格式
我正在使用docx包从word文档中提取元素,并希望将它们保存为特定的XML格式python docx中的高级格式,python,python-docx,Python,Python Docx,我正在使用docx包从word文档中提取元素,并希望将它们保存为特定的XML格式 doc = docx.Document("sample.docx") paras = doc.paragraphs sample.docx包含标题、标准文本、图像、超链接、列表和表格 当我打印出文档中的不同样式时,似乎可以轻松提取标题和标准文本组件。i、 e.以下内容为我提供了样式,如标题、普通、正文、标题2、间隔符、列表段落等 for p in paras: print(p.style.name) 有
doc = docx.Document("sample.docx")
paras = doc.paragraphs
sample.docx
包含标题、标准文本、图像、超链接、列表和表格
当我打印出文档中的不同样式时,似乎可以轻松提取标题和标准文本组件。i、 e.以下内容为我提供了样式,如标题、普通、正文、标题2、间隔符、列表段落等
for p in paras:
print(p.style.name)
有人能告诉我如何提取以下组件吗
- 图像:如何提取图像?我找到了类似的答案李>
- 超链接:如何知道段落中有链接
- 列表:一些列表提取为
样式,而其他列表未提取列表段落
- 表:我发现对于表,需要提取
。但是,如何维护原始文档中元素的顺序呢doc.Tables