Python regex仅选择http://www 超链接的一部分

Python regex仅选择http://www 超链接的一部分,python,regex,Python,Regex,我搜索了论坛,找不到任何可以解决我问题的东西。例如,我试图从超链接中仅检索指向网站的链接 我有68行不同的代码,如下所示: href="/creditrating/Pages/Home.aspx" class="rmLink"> <span class="rmText">Centre for Credit Rating</span></a></li> <li class="rmItem "><a href="http://w

我搜索了论坛,找不到任何可以解决我问题的东西。例如,我试图从超链接中仅检索指向网站的链接

我有68行不同的代码,如下所示:

href="/creditrating/Pages/Home.aspx" class="rmLink">
<span class="rmText">Centre for Credit Rating</span></a></li>
<li class="rmItem "><a href="http://www.creative-growth.eu/" class="rmLink">
<span class="rmText">Creative Growth Project</span></a></li><li class="rmItem ">
<a href="/faculties/health-life-social-sciences/centres/Pages/Placements-Practice-Education-Centre.aspx" class="rmLink">
<span class="rmText">Placements &amp; Practice Education Centre</span></a></li>
<li class="rmItem "><a href="/research/centresandprojects/smartcities/Pages/Smart-Cities.aspx" class="rmLink">
<span class="rmText">Smart Cities</span></a></li>
<li class="rmItem rmLast"><a href="/research/centresandprojects/src/Pages/src.aspx" class="rmLink"><span class="rmText">Scottish Resource Centre for Women in SET</span></a>
</li>
href=“/creditrating/Pages/Home.aspx”class=“rmLink”>
信用评级中心
  • 我所需要的只是这个案例中的链接


    我想使用正则表达式来实现这一点。您还可以给我解释一下代码吗?

    使用一个正则表达式捕获
    href=“(http(s?):\/\/[^”]+)”

    这将捕获链接以及它们是否引用HTTPS站点

    http://[^/]+/
    
    以http://
    开头 接受除/
    以外的任何字符
    以/

    结尾我丢失了一个
    +
    链接可能是ftp | www | smb:等,询问查找绝对URL而忽略相对URL?您没有考虑到他可能需要完整路径,他的示例不明确,他也需要链接,您的将捕获任何链接http://all 没错,我认为网站只是域名,而不是福ll链接