Python 使用漂亮的汤族树解析HTML页面

Python 使用漂亮的汤族树解析HTML页面,python,html,parsing,tags,beautifulsoup,Python,Html,Parsing,Tags,Beautifulsoup,我正在编写一个解析脚本,可以访问HTML页面中的“img”标记(我正在使用BeautifulSoup) 我使用findAll方法来访问代码中的每个图像,但我还想访问额外的信息。我想要每个图像的标题,该标题位于href属性下紧靠前的“a”标记中。 HTML代码如下所示: div class="thumbinner" style="width:202px;"><a href="/wiki/File:Edmund-Hillary.web.jpg" class="image">img

我正在编写一个解析脚本,可以访问HTML页面中的“img”标记(我正在使用BeautifulSoup) 我使用findAll方法来访问代码中的每个图像,但我还想访问额外的信息。我想要每个图像的标题,该标题位于href属性下紧靠前的“a”标记中。 HTML代码如下所示:

div class="thumbinner" style="width:202px;"><a href="/wiki/File:Edmund-Hillary.web.jpg" class="image">img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/8/8d/Edmund-Hillary.web.jpg/200px-Edmund-Hillary.web.jpg" width="200" height="272" class="thumbimage" srcset="//upload.wikimedia.........
我想既然“img”标记和“a”标记都是“div”标记的子标记,那么它们就可以通过兄弟方法访问

关于如何访问的任何建议:href=“/wiki/File:Edmund Hillary.web.jpg”
??由于图像标记位于
标记之后,因此您希望查找父项而不是兄弟项:

>>> soup.find('img', width=True).parent['href']
'/wiki/File:Edmund-Hillary.web.jpg'

代码的另一个问题是
findAll
返回一个列表,因此不能直接调用它的
.sides
。如果您有多个图像,请使用循环。

但是如果我希望它们手牵手?对于每个特定的图像标签,我想要“a”标签是什么意思?有没有一种方法可以使用图像标签访问它,从而将它们链接起来?
>>> soup.find('img', width=True).parent['href']
'/wiki/File:Edmund-Hillary.web.jpg'