python搜索语法以识别分布在多行上的文本模式
我最近开始使用python和正则表达式。作为第一个项目,我想读取一个pdf文件,过滤特定的文本数据,并在excel表格中重新组合。因此,我遇到了一个正则表达式问题: pdf文件输出格式: 此行的文本不总是在这里\n 社区在这里帮助您进行特定编码、算法、, 或语言问题。\n 总结\n 询问\n 此行的文本不总是在这里\n 我要搜索“ask”,并通过“特定编码”和“\n汇总\n”找到它。下面的“询问”文本无法可靠地找到它,因为它总是不同的python搜索语法以识别分布在多行上的文本模式,python,regex,Python,Regex,我最近开始使用python和正则表达式。作为第一个项目,我想读取一个pdf文件,过滤特定的文本数据,并在excel表格中重新组合。因此,我遇到了一个正则表达式问题: pdf文件输出格式: 此行的文本不总是在这里\n 社区在这里帮助您进行特定编码、算法、, 或语言问题。\n 总结\n 询问\n 此行的文本不总是在这里\n 我要搜索“ask”,并通过“特定编码”和“\n汇总\n”找到它。下面的“询问”文本无法可靠地找到它,因为它总是不同的 我试着使用(?=…)和(?如果你想找到ask你可以使用一
我试着使用(?=…)和(?如果你想找到
ask
你可以使用一个捕获组而不是lookarounds。你可以匹配特定的编码
,然后是行的其余部分*
如果后面有空行和换行符,可以使用\s*
来匹配它们
然后匹配一个新行,后跟摘要
再次匹配空行和换行符,并在捕获组中捕获ask
\bspecific coding\b.*\s*\r?\nSummarize\s*\r?\n(ask)\b
如果您使用捕获组,则不需要周围环境。请尝试\b特定编码。*\s*\r?\n汇总\s*\r?\n(询问)\b