Python regex仅选择http://www 超链接的一部分_Python_Regex

Python regex仅选择http://www 超链接的一部分

python regex

Python regex仅选择http://www 超链接的一部分,python,regex,Python,Regex,我搜索了论坛，找不到任何可以解决我问题的东西。例如，我试图从超链接中仅检索指向网站的链接我有68行不同的代码，如下所示： href="/creditrating/Pages/Home.aspx" class="rmLink"> <span class="rmText">Centre for Credit Rating</span></a></li> <li class="rmItem "><a href="http://w

我搜索了论坛，找不到任何可以解决我问题的东西。例如，我试图从超链接中仅检索指向网站的链接

我有68行不同的代码，如下所示：

href="/creditrating/Pages/Home.aspx" class="rmLink">
<span class="rmText">Centre for Credit Rating</span></a></li>
<li class="rmItem "><a href="http://www.creative-growth.eu/" class="rmLink">
<span class="rmText">Creative Growth Project</span></a></li><li class="rmItem ">
<a href="/faculties/health-life-social-sciences/centres/Pages/Placements-Practice-Education-Centre.aspx" class="rmLink">
<span class="rmText">Placements &amp; Practice Education Centre</span></a></li>
<li class="rmItem "><a href="/research/centresandprojects/smartcities/Pages/Smart-Cities.aspx" class="rmLink">
<span class="rmText">Smart Cities</span></a></li>
<li class="rmItem rmLast"><a href="/research/centresandprojects/src/Pages/src.aspx" class="rmLink"><span class="rmText">Scottish Resource Centre for Women in SET</span></a>
</li>

href=“/creditrating/Pages/Home.aspx”class=“rmLink”>
信用评级中心

我所需要的只是这个案例中的链接

我想使用正则表达式来实现这一点。您还可以给我解释一下代码吗？

使用一个正则表达式捕获

href=“（http（s？）：\/\/[^”]+）”

这将捕获链接以及它们是否引用HTTPS站点

http://[^/]+/

以http://
开头接受除/
以外的任何字符

以/

结尾我丢失了一个

链接可能是ftp | www | smb:等，询问查找绝对URL而忽略相对URL？您没有考虑到他可能需要完整路径，他的示例不明确，他也需要链接，您的将捕获任何链接http://all 没错，我认为网站只是域名，而不是福ll链接