Python 无法使用正则表达式获取多行文字_Python_Regex

Python 无法使用正则表达式获取多行文字

python regex

Python 无法使用正则表达式获取多行文字,python,regex,Python,Regex,我扫描了一个带有Tika的PDF，其中包含以下格式的文本，有多个换行符 Some non Interview text interview with Mr.XYZ Question: How are you? Answer: I am fine. Question: What do you do? Answer: Nothing Some non Interview text 如何应用正则表达式？我可以匹配单词和空格，但它不会变成多行。我尝试了以下正则表达式：我想要的是与

我扫描了一个带有Tika的PDF，其中包含以下格式的文本，有多个换行符

Some non Interview text

interview with Mr.XYZ



Question: How are you?
Answer: I am fine.

Question: What do you do?
Answer: Nothing



Some non Interview text

如何应用正则表达式？我可以匹配单词和空格，但它不会变成多行。我尝试了以下正则表达式：

我想要的是与采访相关的文本，它以采访开始，并在文本不包含任何问题时被视为结束：

使用

re.findall

功能获取特定文本的所有事件

match = re.findall('interview with \s*?\w+.\w+',text)

match是匹配文本出现次数的列表，如果您只需要名称，请使用：

“采访与\s*？（\w+。\w+）”

作为搜索字符串。

可以

重新搜索（“采访与\s？\w+。\w+”，text）。group（）

我不确定我是否理解。你想匹配从“采访”开始到结束的所有内容吗？类似于[\s\s]*的采访应该可以完成这项工作。@Sushanth我刚刚尝试了生成的python代码，它返回了nothing@AhmedAbdelhameed不是结束，如果没有更多像问答这样的文本，面试将被视为结束。而且你的正则表达式不起作用，我在Regex101网站上累了。我仍然不确定你到底想达到什么目的，但也许可以尝试一些类似于

采访的方法。+（？：\s+问题：.+\s+答案：.+）*

。演示：