使用python和正则表达式从html检测图像src？_Python_Html_Regex_Parsing

使用python和正则表达式从html检测图像src？

python html regex parsing

使用python和正则表达式从html检测图像src？,python,html,regex,parsing,Python,Html,Regex,Parsing,我想使用python从html代码的img标记中检测图像的src属性。我认为正则表达式可以完成这项工作。我创建了一个正则表达式 \<img .*src="(.*)".*/\> \ 但是使用img标签有很多可能的方法，例如 <img src="images/first.png" alt="" /> <img src="images/first.png" alt=""> <img alt="" src="images/first.png" />

我想使用python从html代码的img标记中检测图像的src属性。我认为正则表达式可以完成这项工作。我创建了一个正则表达式

\<img .*src="(.*)".*/\>

但是使用img标签有很多可能的方法，例如

<img src="images/first.png" alt="" />
<img src="images/first.png" alt="">
<img  alt="" src="images/first.png" />
<img  alt="" width="100" src="images/first.png" height="200">

所以我的问题是，上面的正则表达式是否足以完成任务？

有谁能给出更好的选择吗

您可以使用漂亮的库BeautifulSoup

使用HTML解析器，Python有几种选择：

是标准库的一部分
是一个流行的第三方库
是一个快速且功能丰富的基于C的库

ElementTree示例：

from xml.etree import ElementTree

tree = ElementTree.parse('filename.html')
for elem in tree.findall('img'):
    print elem['src']

我不能在这个项目中使用任何其他库。@MuhammedKK那么你就不能很好地解决这个问题。我想知道为什么？

有谁能给我一个更好的选择

-是的，使用

lmxl.html

或

bs4

-但是根据一条评论-

我不能在这个项目中使用任何其他库

…我所说的选择是指更好的正则表达式。@MuhammedKK:对不起，我们通常不会帮助人们自杀。正则表达式对于这项工作来说是错误的工具。