仅将具有word文件背景颜色的文本提取到python_Python_Docx

仅将具有word文件背景颜色的文本提取到python

python

仅将具有word文件背景颜色的文本提取到python,python,docx,Python,Docx,我想将word文件中的“突出显示”文本提取到python中我知道如何使用以下工具以黑白形式提取完整文档： import docx2txt my_text = docx2txt.process('path') print(my_text) 然后我把完整的文件拿回来。但是在原始word文件中，有一些高亮显示的表格背景颜色为绿色（完整的表格背景颜色为绿色），如何仅提取这些信息？为此使用python docx。有关以特定颜色高亮显示的文本，请参见编辑：用于从表格中提取文本的编辑。使用前请阅读标签说

我想将word文件中的“突出显示”文本提取到python中

我知道如何使用以下工具以黑白形式提取完整文档：

import docx2txt
my_text = docx2txt.process('path')
print(my_text)

然后我把完整的文件拿回来。但是在原始word文件中，有一些高亮显示的表格背景颜色为绿色（完整的表格背景颜色为绿色），如何仅提取这些信息？

为此使用python docx。有关以特定颜色高亮显示的文本，请参见

编辑：用于从表格中提取文本的编辑。

使用前请阅读标签说明：“一个字是处理器在其通用寄存器中可以容纳的数据量——实际上是处理器“一次”可以处理的数据量。有关Microsoft word的编程相关问题不应使用此标记-使用标记[ms word]，而应使用“@PV8您在处理docx文件时使用了错误的库。”<代码>docx2txt仅将文件转换为文本。你需要高级的docx处理器，我想你可能对使用

python docx

package感兴趣。一般来说，你应该解析docx文件，对段落中的每个单词，检查word->的背光，然后突出显示的单词，将它们提取到list，然后将list保存到txt filethx以获得答案，但这不会产生任何输出

import docx

document = docx.Document("disk.docx")


tables = document.tables

for table in tables:
    for row in table.rows:
        for cell in row.cells:
            for paragraph in cell.paragraphs:
                for run in paragraph.runs:
                    if run.font.highlight_color:
                        print(run.text)