仅将具有word文件背景颜色的文本提取到python

仅将具有word文件背景颜色的文本提取到python,python,docx,Python,Docx,我想将word文件中的“突出显示”文本提取到python中 我知道如何使用以下工具以黑白形式提取完整文档: import docx2txt my_text = docx2txt.process('path') print(my_text) 然后我把完整的文件拿回来。但是在原始word文件中,有一些高亮显示的表格背景颜色为绿色(完整的表格背景颜色为绿色),如何仅提取这些信息?为此使用python docx。有关以特定颜色高亮显示的文本,请参见 编辑:用于从表格中提取文本的编辑。使用前请阅读标签说

我想将word文件中的“突出显示”文本提取到python中

我知道如何使用以下工具以黑白形式提取完整文档:

import docx2txt
my_text = docx2txt.process('path')
print(my_text)

然后我把完整的文件拿回来。但是在原始word文件中,有一些高亮显示的表格背景颜色为绿色(完整的表格背景颜色为绿色),如何仅提取这些信息?

为此使用python docx。有关以特定颜色高亮显示的文本,请参见


编辑:用于从表格中提取文本的编辑。

使用前请阅读标签说明:“一个字是处理器在其通用寄存器中可以容纳的数据量——实际上是处理器“一次”可以处理的数据量。有关Microsoft word的编程相关问题不应使用此标记-使用标记[ms word],而应使用“@PV8您在处理docx文件时使用了错误的库。”<代码>docx2txt仅将文件转换为文本。你需要高级的docx处理器,我想你可能对使用
python docx
package感兴趣。一般来说,你应该解析docx文件,对段落中的每个单词,检查word->的背光,然后突出显示的单词,将它们提取到list,然后将list保存到txt filethx以获得答案,但这不会产生任何输出
import docx

document = docx.Document("disk.docx")


tables = document.tables

for table in tables:
    for row in table.rows:
        for cell in row.cells:
            for paragraph in cell.paragraphs:
                for run in paragraph.runs:
                    if run.font.highlight_color:
                        print(run.text)