Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/363.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python正则表达式findall()单撇号之间的子字符串_Python_Regex_Nlp_Substring_Findall - Fatal编程技术网

Python正则表达式findall()单撇号之间的子字符串

Python正则表达式findall()单撇号之间的子字符串,python,regex,nlp,substring,findall,Python,Regex,Nlp,Substring,Findall,所以我需要捕获字符串中位于两个单撇号之间的子字符串 对于本例,我有字符串: 这部电影提出的真正问题不是“谁?”但“为什么?” 我目前得到的输出是: [“‘谁?’”,[],[],[] 我想让正则表达式捕捉“为什么?”也一样,但我不知道为什么它不起作用 这是我的正则表达式 pattern = re.compile(r"(\s+[\']{1}\D{2,}[^\']+[\']{1} | ^[\']{1}\D{2,}[^\']+[\']{1}$)") 我拥有\D的原因是我不想捕捉70年代,我至少需要2个

所以我需要捕获字符串中位于两个单撇号之间的子字符串

对于本例,我有字符串:

这部电影提出的真正问题不是“谁?”但“为什么?”

我目前得到的输出是: [“‘谁?’”,[],[],[]

我想让正则表达式捕捉“为什么?”也一样,但我不知道为什么它不起作用

这是我的正则表达式

pattern = re.compile(r"(\s+[\']{1}\D{2,}[^\']+[\']{1} | ^[\']{1}\D{2,}[^\']+[\']{1}$)")
我拥有\D的原因是我不想捕捉70年代,我至少需要2个字符,因为我不想捕捉摇滚乐中的n。 我想添加[^\'],因为在它捕获完整的 “谁?”但“为什么?” 但我需要的是 “谁?”及 “为什么?” 要分开比赛。
任何建议都会有帮助,提前谢谢。

为了避免特殊情况,我建议进行一些预处理,使正则表达式更容易

首先删除字符串,如
'70
'n
(后跟空格),然后在简单引号之间进行非贪婪匹配就很容易了

我改变了输入字符串,引入了“数字和摇滚乐”

import re

s = "the real question this '70 rock 'n roll movie poses is not 'who ? ' but 'why ? '"

s = re.sub(r"'(\d+|\w\s)","",s)

print(re.findall("'.*?'",s))
印刷品:

["'who ? '", "'why ? '"]
如果您有更多的反例,那么使用类似的替换技术将其删除比尝试不匹配要容易得多。

您可以使用

re.findall(r"(?<!\S)'([^\d\s']{2,}[^']*)'", text)

re.findall(r)(?尝试
re.findall(r)(?@WiktorStribiżew谢谢你的回答!问题很好,但你应该用“70 thing and rock'n roll”更新你的测试字符串,因为否则测试字符串不能代表你想要的内容。@ChelseyW我发布了。如果你有更多的测试用例,请更新问题,并通过答案下的评论让回答者知道。这似乎是可能的可能您需要使模式更精确一些,但请确保您共享确切的需求。