Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/string/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在office文档中搜索字符串python_Python_String_Windows_Parsing_Ms Office - Fatal编程技术网

在office文档中搜索字符串python

在office文档中搜索字符串python,python,string,windows,parsing,ms-office,Python,String,Windows,Parsing,Ms Office,我一直在寻找一种快速且相对简单的方法(grep-ish)来搜索不同格式的文件中的用户定义字符串,即使用Python的xlsx、docx、pptx、pdf 我的研究让我相信,按照单个模块或类似模块,可能没有一种方便的方法来实现这一点。我是否必须为每种文件类型使用单独的模块?如果是这样,这些是否合适 docx openpyxl pptx 石板 我还研究了解压的形式,以获得包含实际文本的xml文件,但它似乎很难处理。我只是想确定没有一种简单、统一的方法来处理所有这些不同的文件类型。好吧,我基本上已经弄

我一直在寻找一种快速且相对简单的方法(grep-ish)来搜索不同格式的文件中的用户定义字符串,即使用Python的xlsx、docx、pptx、pdf

我的研究让我相信,按照单个模块或类似模块,可能没有一种方便的方法来实现这一点。我是否必须为每种文件类型使用单独的模块?如果是这样,这些是否合适

docx

openpyxl

pptx

石板


我还研究了解压的形式,以获得包含实际文本的xml文件,但它似乎很难处理。我只是想确定没有一种简单、统一的方法来处理所有这些不同的文件类型。

好吧,我基本上已经弄明白了。最后,我决定使用powershell结合“itextsharp.dll”来处理这些文件。事实证明,它比使用可移植python更简单。感谢您的回答:-)

您尝试过什么吗?因为您已经接触到解析成为一个巨大的问题,单靠Python可能无法解决。能够高效地搜索也变得相当复杂。ApacheTika是一种具有多种支持格式的文件解析器。您可以定期将解析后的输出缓存在数据存储中(如solr),以提高搜索效率。解析文件并不是简单的统一方法。因为其中很多都是来自不同供应商的专有格式。Docx由微软管理,Pdf由Adobe管理,这些公司不进行沟通以使其文件格式通用。