Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/290.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/18.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 需要修改我的正则表达式以捕捉本质上相同句子的不同表示形式_Python_Regex_Pdf_Text - Fatal编程技术网

Python 需要修改我的正则表达式以捕捉本质上相同句子的不同表示形式

Python 需要修改我的正则表达式以捕捉本质上相同句子的不同表示形式,python,regex,pdf,text,Python,Regex,Pdf,Text,好的,我正在解析PDF文件,只得到“SECTION 2”。 我将向您展示我正在处理的PDF文件中的一些示例。 我需要抓住第2节(两个陷阱之间)中的所有内容 这是我的正则表达式(正在工作) 注:有时是关于“成分”的信息 我尝试过不同的方法,比如使用“SECTION 2”和“SECTION 3”,但在一些文件中,它只是“2”和“3”,所以我达到了这个目的 到目前为止,我的正则表达式在95%的文件上都能正常工作,因为这些文件的语句不同,如下所示: 这是: 以及其他诸如此类的问题。我试着只用“H

好的,我正在解析PDF文件,只得到“SECTION 2”。 我将向您展示我正在处理的PDF文件中的一些示例。

我需要抓住第2节(两个陷阱之间)中的所有内容 这是我的正则表达式(正在工作)

注:有时是关于“成分”的信息

我尝试过不同的方法,比如使用“SECTION 2”和“SECTION 3”,但在一些文件中,它只是“2”和“3”,所以我达到了这个目的

到目前为止,我的正则表达式在95%的文件上都能正常工作,因为这些文件的语句不同,如下所示:

这是:

以及其他诸如此类的问题。我试着只用“Hazard”和“Composition”两个词来捕获正则表达式,但它们出现在第2节之前的一些文件中,因此它捕获了错误的部分

我可以编写多个正则表达式来捕获所有的组合,但是如果我的脚本看到一个全新的文件呢?我认为这根本没有效率

你知道我该怎么做吗


如果需要,我可以提供有关该项目的更多信息。

您不必为所有文档创建单个正则表达式。。。我甚至不想尝试。我只会处理“SECTION 2”/“SECTION 3”案例,直到正则表达式不起作用。从regex1不起作用的文档中,将它们分组到遵循模式的bucket中,并为该bucket编写一个新的regex。重复上述步骤,直到您将文档分类到几个桶中,并且每个桶都有一个正则表达式

re.findall('hazards*\sidentification(.*?)information\son\st*h*e*\s*ingredients', text, re.IGNORECASE)