在Python中设置特定的正则表达式

在Python中设置特定的正则表达式,python,regex,Python,Regex,我是Python新手,需要一个正则表达式来检索此格式的标题和链接: <a href="anything" class="anything" title="Size: anything">anything</a> 您最好使用一个像样的HTML解析器。使用具有以下特性的选项-例如: from bs4 import BeautifulSoup soup = BeautifulSoup(input) for link in soup.find_all('a', class_

我是Python新手,需要一个正则表达式来检索此格式的标题和链接:

<a href="anything" class="anything" title="Size: anything">anything</a>

您最好使用一个像样的HTML解析器。使用具有以下特性的选项-例如:

from bs4 import BeautifulSoup

soup = BeautifulSoup(input)

for link in soup.find_all('a', class_='anything'):
    print link['href'], link.text
这将查找类anything的所有元素,然后打印它们的URL和链接文本


正则表达式通常不是解析HTML的工具。

当然,除了您不会试图用正则表达式解析HTML之外,是吗?没有人会这么做:-你被否决的原因不是问题本身写得很糟糕。相反,这个问题的存在表明你缺乏事先的研究;这个问题被问/回答了一千遍。HTML不是规则的,因此正则表达式不是处理它的合适技术。此外,您还没有给出您实际尝试过的内容的指示。我只需要检索一般信息,而不是解析。而不是具体的任何东西=任何字符串itself@MennouchiAzeddineIslam:这是一个例子。您可以根据自己的具体情况轻松地进行调整。例如,删除class='anywhere'过滤器。是的,您手头有一个解析任务。谢谢您,只需再问一个问题,关于标题字段,我该怎么做?我的意思是标题=大小:anything@MennouchiAzeddineIslam:链接['title']。我链接到了BeautifulSoup网站,那里有很好的文档可以找到。