Parsing 用python从docx文件中提取数据

Parsing 用python从docx文件中提取数据,parsing,python-3.x,docx,Parsing,Python 3.x,Docx,我想从扩展名为docx的word文档中提取数据。此文档包含一个表。我想从表的每一列和每一行获取数据 然后我想处理数据并将其插入各自字段下的Excel文件中 谁能指导我如何在python中实现这一点 我正在Windows7上使用python3。(可能还希望在windows Server 2003上运行此代码) 任何帮助都将不胜感激 谢谢试试以下方法: import win32com.client as w32c Word = w32c.Dispatch("Word.Application") W

我想从扩展名为docx的word文档中提取数据。此文档包含一个表。我想从表的每一列和每一行获取数据

然后我想处理数据并将其插入各自字段下的Excel文件中

谁能指导我如何在python中实现这一点

我正在Windows7上使用python3。(可能还希望在windows Server 2003上运行此代码)

任何帮助都将不胜感激

谢谢

试试以下方法:

import win32com.client as w32c

Word = w32c.Dispatch("Word.Application")
Word.Visible=1
doc=Word.Documents.Open("C:\\docx_with_a_table.docx")
tables=doc.Tables
for t_cnt in range(tables.Count):
    table=tables[t_cnt]
    for r_cnt in range(table.Rows.Count):
        row=table.Rows[r_cnt]
        for c_cnt in range(row.Cells.Count):
            cell=row.Cells[c_cnt]
            print(cell.Range.Text)
Word文档上的ALT+F11和F2将显示VBA对象。。。在Perl中,上述过程得到了更好的记录


Python3的xlrd3和xlwt3包很好地支持对Excel的读写,我没有一个好的答案给你,但是解析不太可能起作用。您必须运行Word,并使用PyWin32模块及其COM支持从Python通过COM与它对话。这并不容易。:-)谢谢你们的回复@LennartRegebro,我该如何继续使用PyWin32?1。你可以安装它。2.你可以在谷歌上搜索如何做你想做的事。3.你带着具体的问题回来。。。。然后,在使用MS Word组件时,您必须学习对象结构。注意,这并不十分容易。有一个模块声称能够读取docx文件: