Regex 正则表达式以匹配后跟数字的字符串的特定模式
样本输入:Regex 正则表达式以匹配后跟数字的字符串的特定模式,regex,Regex,样本输入: ___file___name___2000___ed2___1___2___3 DIFFERENT+FILENAME+(2000)+1+2+3+ed10 所需输出(例如,所有字母和4位数字以及紧跟任意长度数字的文字“ed”: file name 2000 ed2 DIFFERENT FILENAME 2000 ed10 我正在使用: [A-Za-z]+|[\d]{4}|ed\d+,它只返回: 文件名2000 ed 不同文件名2000版 我看到这里有一个相关的Q+a: 例如,使
___file___name___2000___ed2___1___2___3
DIFFERENT+FILENAME+(2000)+1+2+3+ed10
所需输出(例如,所有字母和4位数字以及紧跟任意长度数字的文字“ed”:
file name 2000 ed2
DIFFERENT FILENAME 2000 ed10
我正在使用:
[A-Za-z]+|[\d]{4}|ed\d+
,它只返回:
文件名2000 ed
不同文件名2000版
我看到这里有一个相关的Q+a:
例如,使用
ed[0-9]*
将匹配ed#
,但不确定其在上述情况下不匹配的原因。如前所述,您的正则表达式是正确的。但是,请记住,正则表达式尝试从左到右匹配其语句。您的ed\d+
永远不会匹配,因为您的[A-Za-z]已经使用了ed
alternative.重新排序您的正则表达式,它就可以正常工作了:
ed\d+|[a-zA-Z]+|\d{4}
您可以使用(只需抓取第一个捕获组):
参见Nick的答案是正确的,但由于顺序匹配可能是一种不太可读的“gotcha”,因此进行此类搜索的最佳(不区分顺序)方法是1)使用指定的分隔符,2)使每个搜索词唯一 简的回答处理得很好。但您必须指定每个特定的分隔符,包括其长度(例如,
\uuuuuuuuu
)。听起来您可能有一些不寻常的分隔符,因此这可能不理想
对于#2,则可以使每个搜索词都是唯一的。(也就是说,您希望匹配“file”和“name”的对象与匹配“2000”的对象不同,并且两者都与匹配“ed2”的对象不同。)
一种方法是[A-Za-z]+(?![0-9a-Za-z])|[\d]{4}|ed\d+
。这意味着对于第一种类型的搜索词,您需要一个字母字符串,后跟一个非字母数字字符。这使它与第三个搜索词不同,第三个搜索词是一个字母字符串,后跟一些数字。这还允许您指定其中的任何分隔符范围
零件首先与
ed
匹配,而其他替代品无法与ed
之后的单个2匹配。您想要所有单独的匹配,还是想要单个匹配,如^[A-Za-z]+(?:[A-Za-z]+)\d{4}ed\d+$
谢谢。我忘了从左到右的比赛了。有什么方法可以避免担心从左到右的比赛吗?没有。您无法绕过引擎从左到右读取您的输入模式,但对于某些模式,您可以滥用正则表达式的行为,首先使用贪婪的量词使其“从右到左”读取匹配项。然而,从右向左阅读并非如此;它尽可能地匹配,然后从比赛结束时开始回溯。就你的例子来说,这是不可能的。一个小问题——你答案的中间部分([a-zA-Z0-9]{2,})本身就抓住了我需要的东西。你能简单地解释一下你为什么包括另外两部分吗?谢谢
(?:^|___|[+(]) # delimiter before
([a-zA-Z0-9]{2,}) # the actual content
(?=$|___|[+)]) # delimiter afterwards