RegEx-返回URL文本字符串右侧的模式

RegEx-返回URL文本字符串右侧的模式,regex,google-data-studio,regexp-replace,re2,Regex,Google Data Studio,Regexp Replace,Re2,我希望使用正则表达式将URL字符串返回到特定文本集的右侧: 网址: 我想返回的是: /whitepapername.pdf 我已尝试使用^\w+“countrycode”(\w.*),但匹配项无法识别countrycode 在Google Data Studio中,我想创建一个新字段,使用REGEX_REPLACE函数删除URL的开头 理想情况下使用: REGEX_REPLACE(Page,......) 您可以使用捕获组并替换为组1。您可以逐字匹配/countrycode,或者使用该模式将

我希望使用正则表达式将URL字符串返回到特定文本集的右侧:

网址:

我想返回的是:

/whitepapername.pdf
我已尝试使用
^\w+“countrycode”(\w.*)
,但匹配项无法识别
countrycode

在Google Data Studio中,我想创建一个新字段,使用
REGEX_REPLACE
函数删除URL的开头

理想情况下使用:

REGEX_REPLACE(Page,......)

您可以使用捕获组并替换为组1。您可以逐字匹配
/countrycode
,或者使用该模式将2倍字符a-z与中间的下划线匹配,如
/[a-z]{2}{[a-z]{2}

在更换中,使用组1
\\1

^.*/countrycode(/[^/]+\.\w+)$

或者使用注释中的国家代码模式:

^.*/[a-z]{2}_[a-z]{2}(/[^/]+\.\w+)$

第二种模式分为两部分

  • ^
    字符串的开头
  • */
    匹配直到最后一次出现正斜杠
  • [a-z]{2}\u[a-z]{2}
    匹配国家/地区代码部分,2乘以2个字符a-z之间的下划线
  • Capturegroup 1
    • /[^/]+
      匹配正斜杠,然后使用
    • \。\w+
      匹配一个点和1+个单词字符
  • 关闭组
  • $
    字符串结尾
下面的函数实现了这一功能,捕获最后一个
国家代码之后的所有
(.*)
字符,其中
页面
表示相应字段:

REGEXP_REPLACE(Page, ".*(countrycode)(.*)$", "\\2")
或者-根据Google Data Studio调整RegEx:

REGEXP_REPLACE(Page, "^.*/countrycode(/[^/]+\\.\\w+)$", "\\1")
以及一个GIF来详细说明:

REGEXP_REPLACE(Page, "^.*/countrycode(/[^/]+\\.\\w+)$", "\\1")