C# regex仅与不带www的http匹配网站
我想从HTML代码得到所有的网站。问题是我有一个正则表达式,它接受所有的URL,但是地址中需要C# regex仅与不带www的http匹配网站,c#,.net,html,regex,C#,.net,Html,Regex,我想从HTML代码得到所有的网站。问题是我有一个正则表达式,它接受所有的URL,但是地址中需要www。我需要使用什么样的正则表达式来获取内容中没有www的URL 更新:我使用的正则表达式是: string anchorPattern = @"(?<Protocol>\w+)://(?<Domain>[\w@][\w.:@]+)/?[\w.?=%&=\-@/$,&+]*'"; 字符串主播模式= @“(?\w+):/(?[\w@][\w:@][
www
。我需要使用什么样的正则表达式来获取内容中没有www
的URL
更新:我使用的正则表达式是:
string anchorPattern =
@"(?<Protocol>\w+)://(?<Domain>[\w@][\w.:@]+)/?[\w.?=%&=\-@/$,&+]*'";
字符串主播模式=
@“(?\w+):/(?[\w@][\w:@][\w:@]+)/?[\w.?=%&=\-@/$,&;+]*”;
一个类似于您所拥有的,但没有类似于www\的正则表达式部分。
仅为包含www的URL添加(?=www)
@"(?<Protocol>\w+)://(?=www)(?<Domain>[\w@][\w.:@]+)/?[\w.?=%&=\-@/$,&+]*"
“(?\w+):/(?=www)(?[\w@][\w:@]+)/?[\w.?=%&=\-@/$,&;+]*”
或添加(?www)以获取无www URL
@"(?<Protocol>\w+)://(?!www)(?<Domain>[\w@][\w.:@]+)/?[\w.?=%&=\-@/$,&+]*"
@(?\w+:/(?!www)(?[\w@][\w:@]+)/?[\w.?=%&=\-@/$,&;+]*”
强制性链接:强制性问题:你现在有什么正则表达式?@AdamMihalcin:只要他只想提取URL,就可以使用正则表达式。事实上,这是一个HTML文档并不重要,因为他没有在诸如href属性中查找URL。