Python 需要修改我的正则表达式以捕捉本质上相同句子的不同表示形式
好的,我正在解析PDF文件,只得到“SECTION 2”。 我将向您展示我正在处理的PDF文件中的一些示例。 我需要抓住第2节(两个陷阱之间)中的所有内容 这是我的正则表达式(正在工作) 注:有时是关于“成分”的信息 我尝试过不同的方法,比如使用“SECTION 2”和“SECTION 3”,但在一些文件中,它只是“2”和“3”,所以我达到了这个目的 到目前为止,我的正则表达式在95%的文件上都能正常工作,因为这些文件的语句不同,如下所示: 这是: 以及其他诸如此类的问题。我试着只用“Hazard”和“Composition”两个词来捕获正则表达式,但它们出现在第2节之前的一些文件中,因此它捕获了错误的部分 我可以编写多个正则表达式来捕获所有的组合,但是如果我的脚本看到一个全新的文件呢?我认为这根本没有效率 你知道我该怎么做吗Python 需要修改我的正则表达式以捕捉本质上相同句子的不同表示形式,python,regex,pdf,text,Python,Regex,Pdf,Text,好的,我正在解析PDF文件,只得到“SECTION 2”。 我将向您展示我正在处理的PDF文件中的一些示例。 我需要抓住第2节(两个陷阱之间)中的所有内容 这是我的正则表达式(正在工作) 注:有时是关于“成分”的信息 我尝试过不同的方法,比如使用“SECTION 2”和“SECTION 3”,但在一些文件中,它只是“2”和“3”,所以我达到了这个目的 到目前为止,我的正则表达式在95%的文件上都能正常工作,因为这些文件的语句不同,如下所示: 这是: 以及其他诸如此类的问题。我试着只用“H
如果需要,我可以提供有关该项目的更多信息。您不必为所有文档创建单个正则表达式。。。我甚至不想尝试。我只会处理“SECTION 2”/“SECTION 3”案例,直到正则表达式不起作用。从regex1不起作用的文档中,将它们分组到遵循模式的bucket中,并为该bucket编写一个新的regex。重复上述步骤,直到您将文档分类到几个桶中,并且每个桶都有一个正则表达式
re.findall('hazards*\sidentification(.*?)information\son\st*h*e*\s*ingredients', text, re.IGNORECASE)