Python 需要修改我的正则表达式以捕捉本质上相同句子的不同表示形式_Python_Regex_Pdf_Text

Python 需要修改我的正则表达式以捕捉本质上相同句子的不同表示形式

python regex pdf text

Python 需要修改我的正则表达式以捕捉本质上相同句子的不同表示形式,python,regex,pdf,text,Python,Regex,Pdf,Text,好的，我正在解析PDF文件，只得到“SECTION 2”。我将向您展示我正在处理的PDF文件中的一些示例。我需要抓住第2节（两个陷阱之间）中的所有内容这是我的正则表达式（正在工作）注：有时是关于“成分”的信息我尝试过不同的方法，比如使用“SECTION 2”和“SECTION 3”，但在一些文件中，它只是“2”和“3”，所以我达到了这个目的到目前为止，我的正则表达式在95%的文件上都能正常工作，因为这些文件的语句不同，如下所示：这是：以及其他诸如此类的问题。我试着只用“H

好的，我正在解析PDF文件，只得到“SECTION 2”。我将向您展示我正在处理的PDF文件中的一些示例。

我需要抓住第2节（两个陷阱之间）中的所有内容这是我的正则表达式（正在工作）

注：有时是关于“成分”的信息

我尝试过不同的方法，比如使用“SECTION 2”和“SECTION 3”，但在一些文件中，它只是“2”和“3”，所以我达到了这个目的

到目前为止，我的正则表达式在95%的文件上都能正常工作，因为这些文件的语句不同，如下所示：

这是：

以及其他诸如此类的问题。我试着只用“Hazard”和“Composition”两个词来捕获正则表达式，但它们出现在第2节之前的一些文件中，因此它捕获了错误的部分

我可以编写多个正则表达式来捕获所有的组合，但是如果我的脚本看到一个全新的文件呢？我认为这根本没有效率

你知道我该怎么做吗

如果需要，我可以提供有关该项目的更多信息。

您不必为所有文档创建单个正则表达式。。。我甚至不想尝试。我只会处理“SECTION 2”/“SECTION 3”案例，直到正则表达式不起作用。从regex1不起作用的文档中，将它们分组到遵循模式的bucket中，并为该bucket编写一个新的regex。重复上述步骤，直到您将文档分类到几个桶中，并且每个桶都有一个正则表达式

re.findall('hazards*\sidentification(.*?)information\son\st*h*e*\s*ingredients', text, re.IGNORECASE)