Python 从下载的html页面中提取某些文本和URI部分_Python_Html_Beautifulsoup

Python 从下载的html页面中提取某些文本和URI部分

python html

Python 从下载的html页面中提取某些文本和URI部分,python,html,beautifulsoup,Python,Html,Beautifulsoup,我已经下载了很多html页面，我想从每个这样的标签中提取单个文件存储在目录和子目录中 <h2><a href="index.html">TITLE</a></h2> <p class="postTime">7 September, 2011 - 20:43</p> <p>TEXT</p> <p>

我已经下载了很多html页面，我想从每个这样的标签中提取单个文件存储在目录和子目录中

            <h2><a href="index.html">TITLE</a></h2>
            <p class="postTime">7 September, 2011 - 20:43</p>

            <p>TEXT</p>
            <p>TEXT</p>

            <p class="postmetadata">
              Posted by Person in <a href="../../category/THECATEGORY/index.html"

我需要摘录以下内容

从h2开始：标题从p开始，不带任何类别：文本，文本来自postmetadata类中的一个类：类别

可以使用任何编程语言，但最好是Python。我正在使用Linux。

使用xmllint之类的XML解析器。熟悉。它是一个很棒的HTML/XML解析器，可以帮助您在短时间内完成这项工作。