在office文档中搜索字符串python
我一直在寻找一种快速且相对简单的方法(grep-ish)来搜索不同格式的文件中的用户定义字符串,即使用Python的xlsx、docx、pptx、pdf 我的研究让我相信,按照单个模块或类似模块,可能没有一种方便的方法来实现这一点。我是否必须为每种文件类型使用单独的模块?如果是这样,这些是否合适 docx openpyxl pptx 石板在office文档中搜索字符串python,python,string,windows,parsing,ms-office,Python,String,Windows,Parsing,Ms Office,我一直在寻找一种快速且相对简单的方法(grep-ish)来搜索不同格式的文件中的用户定义字符串,即使用Python的xlsx、docx、pptx、pdf 我的研究让我相信,按照单个模块或类似模块,可能没有一种方便的方法来实现这一点。我是否必须为每种文件类型使用单独的模块?如果是这样,这些是否合适 docx openpyxl pptx 石板 我还研究了解压的形式,以获得包含实际文本的xml文件,但它似乎很难处理。我只是想确定没有一种简单、统一的方法来处理所有这些不同的文件类型。好吧,我基本上已经弄
我还研究了解压的形式,以获得包含实际文本的xml文件,但它似乎很难处理。我只是想确定没有一种简单、统一的方法来处理所有这些不同的文件类型。好吧,我基本上已经弄明白了。最后,我决定使用powershell结合“itextsharp.dll”来处理这些文件。事实证明,它比使用可移植python更简单。感谢您的回答:-)您尝试过什么吗?因为您已经接触到解析成为一个巨大的问题,单靠Python可能无法解决。能够高效地搜索也变得相当复杂。ApacheTika是一种具有多种支持格式的文件解析器。您可以定期将解析后的输出缓存在数据存储中(如solr),以提高搜索效率。解析文件并不是简单的统一方法。因为其中很多都是来自不同供应商的专有格式。Docx由微软管理,Pdf由Adobe管理,这些公司不进行沟通以使其文件格式通用。