Regex 如何查找以“开始”开头的URL/&引用;并包含「;php;?

Regex 如何查找以“开始”开头的URL/&引用;并包含「;php;?,regex,xml,atom-editor,regex-negation,regex-lookarounds,Regex,Xml,Atom Editor,Regex Negation,Regex Lookarounds,我有一个95MB的XML文件,内容从旧的CMS(Drupal通过Wordpress)到新的CMS(Squarespace) Squarespace导入过程一直在中断&这似乎归结为尝试在新服务器中执行PHP的链接 例如: 在导入过程中,新CMS将其识别为内部链接,并尝试执行该URL以导入内容,将其视为攻击或代码注入尝试,并关闭该过程 因此,我想要一种查找以“/”开头并包含“php”的url的方法,以便删除它们 我应该清楚我只想确定内部链接,而不是外部链接到其他网站 这可以通过Regex实现吗?如

我有一个95MB的XML文件,内容从旧的CMS(Drupal通过Wordpress)到新的CMS(Squarespace)

Squarespace导入过程一直在中断&这似乎归结为尝试在新服务器中执行PHP的链接

例如:

在导入过程中,新CMS将其识别为内部链接,并尝试执行该URL以导入内容,将其视为攻击或代码注入尝试,并关闭该过程

因此,我想要一种查找以“/”开头并包含“php”的url的方法,以便删除它们

我应该清楚我只想确定内部链接,而不是外部链接到其他网站


这可以通过Regex实现吗?如果我可以将Regex语句插入Atom&Find/Replace中,我真的希望避免编写脚本来完成这项工作。

是的,这可以通过Regex实现。试试这个:

(\/*)[\w.]+(?:\.[\w\.-]+)+[\w\-\._~:/?#[\]@!\$&'\(\)\*\+,;=.]+\b.php\b

它将匹配有效URL的所有可能字符

使用一个简单的正则表达式怎么样


“\/[^\s””>尝试使用否定类,例如:@bobblebubble-
“\/[^\s”>几乎!这会产生误报,就像url以
http://
开头一样。我尝试过更改它,所以前两个字符必须是
”/
,但我的正则表达式fu远没有你的好。好的尝试:(\/\/\/)[\w.++(?:\.[\w\.-])+)+[\w\-\.\u~:/?\[]@!\$&'()*\+,;=.]+\ b.php\b
"\/[^\s"'><]+\.php