Python 如何从幻灯片中提取的文本生成xml或json?

Python 如何从幻灯片中提取的文本生成xml或json?,python,json,xml,python-pptx,Python,Json,Xml,Python Pptx,我使用这段代码使用pptx从幻灯片中提取文本,如何生成包含每张幻灯片文本的xml或json文件 local_pptxFileList = ["/content/drive/MyDrive/Slides/Backlog Management.pptx"] for i in local_pptxFileList: ppt = Presentation(i) for slide in ppt.slides:

我使用这段代码使用pptx从幻灯片中提取文本,如何生成包含每张幻灯片文本的xml或json文件

local_pptxFileList = ["/content/drive/MyDrive/Slides/Backlog Management.pptx"]

for i in local_pptxFileList:
            ppt = Presentation(i)
            for slide in ppt.slides:
                for shape in slide.shapes:
                    if shape.has_text_frame:
                      print(shape.text)

将提取的文本存储到数据结构中,如列表(或列表列表,每个演示文稿的文本有一个列表)

使用
json
模块从数据结构创建json,并保存到文件中。我没有处理编码(如utf-8)以确保文本正确存储,但有大量相关信息可以轻松找到

import json 

local_pptxFileList = ["/content/drive/MyDrive/Slides/Backlog Management.pptx"]

all_texts = [] 
for i in local_pptxFileList:
    ppt = Presentation(i)
    this_pres_texts = [] 
    for slide in ppt.slides:
        for shape in slide.shapes:
            if shape.has_text_frame:
                this_pres_texts.append(shape.text)
    all_texts.append(this_pres_texts)

with open('data.txt', 'w') as outfile:
    json.dump(all_texts, outfile) 
请浏览、和,以了解此网站的工作原理,并帮助您改进当前和未来的问题,从而帮助您获得更好的答案。“演示如何解决此编码问题?”与堆栈溢出无关。您必须诚实地尝试解决方案,然后询问有关实现的特定问题。堆栈溢出不是为了替换现有教程和文档。您必须指定输入(不仅仅是在计算机之外没有意义的文件路径)、所需的输出(不仅仅是格式语言),并包括针对特定问题的编码尝试。