在一个变量中读取Python中的多个docx文件
在我的一个文件夹中,总共有5个word(.docx)文件,我想在dataframe中读取并存储这些文件的内容 我能够在Python中使用以下语法读取一个文件。谁能帮助我如何读取存储在一个文件夹中的多个docx文件并将结果保存在dataframe中 我也不确定特定文件夹中可用的docx文件的名称在一个变量中读取Python中的多个docx文件,python,Python,在我的一个文件夹中,总共有5个word(.docx)文件,我想在dataframe中读取并存储这些文件的内容 我能够在Python中使用以下语法读取一个文件。谁能帮助我如何读取存储在一个文件夹中的多个docx文件并将结果保存在dataframe中 我也不确定特定文件夹中可用的docx文件的名称 import docx2txt # extract text text = docx2txt.process("file.docx") 我可以使用下面的脚本获得结果 import os import
import docx2txt
# extract text
text = docx2txt.process("file.docx")
我可以使用下面的脚本获得结果
import os
import docx2txt
import glob
import pandas as pd
os.chdir("C:/Data")
Descriptions = []
name = []
for file in glob.glob('*.docx'):
Descriptions.append(docx2txt.process(file))
name.append(file)
data = pd.DataFrame(
{'Descriptions': Descriptions,
'Name': name,
})
data.dtypes
使用
glob
获取文件夹中的所有文件,然后使用for loop
并将输出附加到变量
import glob
text = ''
for file in glob.glob('folder_name/*.docx'):
text += docx2txt.process(file)
这应该起作用:
import os
directory = '.'
extension = '.docx'
text = ''
for a_file in os.listdir(directory):
if a_file.endswith(extension):
text = docx2txt.process(a_file)
非常感谢你的帮助。我能够使用您的逻辑构建数据框架。我已在第一次查询中更新了脚本