在一个变量中读取Python中的多个docx文件

在一个变量中读取Python中的多个docx文件,python,Python,在我的一个文件夹中,总共有5个word(.docx)文件,我想在dataframe中读取并存储这些文件的内容 我能够在Python中使用以下语法读取一个文件。谁能帮助我如何读取存储在一个文件夹中的多个docx文件并将结果保存在dataframe中 我也不确定特定文件夹中可用的docx文件的名称 import docx2txt # extract text text = docx2txt.process("file.docx") 我可以使用下面的脚本获得结果 import os import

在我的一个文件夹中,总共有5个word(.docx)文件,我想在dataframe中读取并存储这些文件的内容

我能够在Python中使用以下语法读取一个文件。谁能帮助我如何读取存储在一个文件夹中的多个docx文件并将结果保存在dataframe中

我也不确定特定文件夹中可用的docx文件的名称

import docx2txt

# extract text
text = docx2txt.process("file.docx")
我可以使用下面的脚本获得结果

import os
import docx2txt
import glob
import pandas as pd       

os.chdir("C:/Data")

Descriptions = []
name = []

for file in glob.glob('*.docx'):
    Descriptions.append(docx2txt.process(file))    
    name.append(file)

data = pd.DataFrame(
    {'Descriptions': Descriptions,
     'Name': name,
    })

data.dtypes

使用
glob
获取文件夹中的所有文件,然后使用
for loop
并将输出附加到变量

import glob
text = ''
for file in glob.glob('folder_name/*.docx'):
    text += docx2txt.process(file)
这应该起作用:

import os

directory = '.'
extension = '.docx'
text = ''

for a_file in os.listdir(directory):
    if a_file.endswith(extension):
        text = docx2txt.process(a_file)

非常感谢你的帮助。我能够使用您的逻辑构建数据框架。我已在第一次查询中更新了脚本