Python 从web爬网输出中解析出特定文本

Python 从web爬网输出中解析出特定文本,python,html,web-scraping,beautifulsoup,Python,Html,Web Scraping,Beautifulsoup,我需要将HTML页面的这一部分解析出来并输出到CSV文件,然后让它等待下一次输出。说到regex我就不知所措了 <h1>Member Information</h1> <h2>Company Name</h2> <p>Address<br /> More Address<br /> City<br /> State<br /> Postal code<br /> </

我需要将HTML页面的这一部分解析出来并输出到CSV文件,然后让它等待下一次输出。说到regex我就不知所措了

<h1>Member Information</h1>


<h2>Company Name</h2>
<p>Address<br />
More Address<br />
City<br />
State<br />
Postal code<br />
</p>
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:email@email.com">email@email.com</a><br /></p>
<a href="http://www.domain.com">www.domain.com</a><br />
<p><strong>Phone:</strong> (555)555-5555<br /></p>

</div><!-- end #content -->

我可以不用地址信息,但公司名称、来自url的ID、名字/姓氏和头衔(如果可能)、电子邮件、url和电话号码将非常有价值。谢谢

不要使用正则表达式解析HTML或XML、Json、CSV

而是使用一个已经为这样的任务编写的优秀库

例如:

from bs4 import BeautifulSoup as BS
soup = BS(htmltext)
soup.h2.text
>>> 'Company Name'