python docx获取单词位置和属性

python docx获取单词位置和属性,docx,python-docx,Docx,Python Docx,我正在寻找一种方法来提取文档中每个单词的位置(x,y)和属性(字体/大小) 从python docx文档中,我知道: 从概念上讲,Word文档有两层:文本层和文本层 绘图层。在文本层中,文本对象从左到右流动 从右到下,在上一页开始时开始新页 已经满了。在图形层中,图形对象(称为形状)是 放置在任意位置。这些有时被称为 浮动形状 图片是可以出现在文本层或绘图层中的形状。当它出现在文本层中时,称为内联形状, 或者更具体地说,一个内联图片 […]在撰写本文时,python docx仅支持内联图片 然而

我正在寻找一种方法来提取文档中每个单词的位置(x,y)和属性(字体/大小)

从python docx文档中,我知道:

从概念上讲,Word文档有两层:文本层和文本层 绘图层。在文本层中,文本对象从左到右流动 从右到下,在上一页开始时开始新页 已经满了。在图形层中,图形对象(称为形状)是 放置在任意位置。这些有时被称为 浮动形状

图片是可以出现在文本层或绘图层中的形状。当它出现在文本层中时,称为内联形状, 或者更具体地说,一个内联图片

[…]在撰写本文时,python docx仅支持内联图片

然而,即使这不是它的要点,我想知道是否存在类似的情况:

from docx import Document
main_file = Document("/tmp/file.docx")
for paragraph in main_file.paragraphs:
    for word in paragraph.text:  # <= Non-existing (yet wished) functionnalities, IMHO
        print(word.x, word.y)  # <= Non-existing (yet wished) functionnalities, IMHO
来自docx导入文档
main\u file=Document(“/tmp/file.docx”)
对于主文件中的段落。段落:
对于段落中的单词。text:#

关于


print(word.x,word.y)#谢谢@scanny!这就是我害怕的。
for word in paragraph.text:  # <= Non-existing (yet wished) functionalities, IMHO    
for word in paragraph.text.split():
    ...
print(word.x, word.y)  # <= Non-existing (yet wished) functionnalities, IMHO