Python 从pptx中提取文本并在excel中导出

Python 从pptx中提取文本并在excel中导出,python,powerpoint,Python,Powerpoint,我使用下面的代码从pptx中提取文本 from pptx import Presentation import glob for eachfile in glob.glob(r"C:\Users\Desktop\powerpoint file\*.pptx"): prs = Presentation(eachfile) for slide in prs.slides: for shape in slide.shapes:

我使用下面的代码从pptx中提取文本

from pptx import Presentation

import glob

for eachfile in glob.glob(r"C:\Users\Desktop\powerpoint file\*.pptx"):
    prs = Presentation(eachfile)
    
    for slide in prs.slides:
        for shape in slide.shapes:
            if hasattr(shape, "text"):
                print(shape.text)
输入pptx如下所示

输出如下图所示(不符合顺序),我正在尝试将其导出到excel中-请帮助

预期产出:


幻灯片上出现的形状按z顺序排列,就像列表中后面的形状一样,都是列表中前面的“顶部”形状

它们不会以“从左到右,从上到下”的顺序出现

如果你想让文本按一个顺序出现,它最自然的是被一个阅读器扫描,你需要考虑每个形状的位置,也许可以用<代码>(顶部,左边)< /C>来排序。虽然这可能只是一个开始,但您可能需要更复杂的规则来解释不同扫描方式的文本“列”之类的内容


这个问题产生于这样一个事实:与Microsoft Word文档不同,PowerPoint幻灯片的内容不是流动的,没有自然的“内容”或“阅读”序列,只有“视觉”序列将什么形状堆叠在哪个其他形状之上的顺序。

请检查问题,查看如何将数据写入Excel的一些建议。@MarekGrzenkowicz,谢谢,但我无法按页提取文本。。请引导我。谢谢