Javascript 使用正则表达式验证url

Javascript 使用正则表达式验证url,javascript,regex,Javascript,Regex,有人请帮忙 我正在尝试编写一些正则表达式,以便在抓取网页时消除文件。 我有类似的URL 允许的URL: 我需要消除,如果有任何网页,这是不是html/xml网页如下网址 不允许/需要URL: 如何编写正则表达式以消除无效URL? 我正在使用javascript来实现这一点 我试过这样的东西 URL = 'http://example.com'; filename = URL.substring(URL.lastIndexOf("/")+1, URL.length); if(filen

有人请帮忙

我正在尝试编写一些正则表达式,以便在抓取网页时消除文件。 我有类似的URL

允许的URL:



我需要消除,如果有任何网页,这是不是html/xml网页如下网址

不允许/需要URL:



如何编写正则表达式以消除无效URL? 我正在使用javascript来实现这一点

我试过这样的东西

URL = 'http://example.com';
filename = URL.substring(URL.lastIndexOf("/")+1, URL.length);
if(filename.match(/^#/g) || filename.match(/#$/g) || filename.match(/[^html]/g) || filename.match(/[^ ]/g)){    // filename contains id, 

使用下面的正则表达式筛选url

(((http://)|(http://www.)|(www.))(example.com)([\/A-z]*)((.html)|(.xml))*)

只需这样尝试
/^(.*(:\/| html | htm | php | xml))\s*$/

if (filename.match(/^(.*(?:\/|html|htm|php|xml))\s*$/)) {
    // yupp, it's ok
}

您给出的那些“有效URL”示例不是无效URL。如果你想排除他们,你需要完整彻底地解释你对无效的定义;不要只给我们举几个例子,因为你对无效的定义和什么是真正无效的url格式是两件不同的事情。还有,我想顺便提一下。。我有点好奇,你希望如何用javascript抓取一个网站。你在用node.js吗?是的。它不是无效的URL。但我想在抓取网站时忽略这些URL。所以我需要排除它们。