使用python和正则表达式从html检测图像src?

使用python和正则表达式从html检测图像src?,python,html,regex,parsing,Python,Html,Regex,Parsing,我想使用python从html代码的img标记中检测图像的src属性。我认为正则表达式可以完成这项工作。我创建了一个正则表达式 \<img .*src="(.*)".*/\> \ 但是使用img标签有很多可能的方法,例如 <img src="images/first.png" alt="" /> <img src="images/first.png" alt=""> <img alt="" src="images/first.png" />

我想使用python从html代码的img标记中检测图像的src属性。我认为正则表达式可以完成这项工作。我创建了一个正则表达式

\<img .*src="(.*)".*/\>
\
但是使用img标签有很多可能的方法,例如

<img src="images/first.png" alt="" />
<img src="images/first.png" alt="">
<img  alt="" src="images/first.png" />
<img  alt="" width="100" src="images/first.png" height="200">

所以我的问题是,上面的正则表达式是否足以完成任务?
有谁能给出更好的选择吗

您可以使用漂亮的库BeautifulSoup

使用HTML解析器,Python有几种选择:

  • 是标准库的一部分
  • 是一个流行的第三方库
  • 是一个快速且功能丰富的基于C的库
ElementTree示例:

from xml.etree import ElementTree

tree = ElementTree.parse('filename.html')
for elem in tree.findall('img'):
    print elem['src']

我不能在这个项目中使用任何其他库。@MuhammedKK那么你就不能很好地解决这个问题。我想知道为什么?
有谁能给我一个更好的选择
-是的,使用
lmxl.html
bs4
-但是根据一条评论-
我不能在这个项目中使用任何其他库
…我所说的选择是指更好的正则表达式。@MuhammedKK:对不起,我们通常不会帮助人们自杀。正则表达式对于这项工作来说是错误的工具。