Python 使用漂亮的汤族树解析HTML页面_Python_Html_Parsing_Tags_Beautifulsoup

Python 使用漂亮的汤族树解析HTML页面

python html parsing tags

Python 使用漂亮的汤族树解析HTML页面,python,html,parsing,tags,beautifulsoup,Python,Html,Parsing,Tags,Beautifulsoup,我正在编写一个解析脚本，可以访问HTML页面中的“img”标记（我正在使用BeautifulSoup）我使用findAll方法来访问代码中的每个图像，但我还想访问额外的信息。我想要每个图像的标题，该标题位于href属性下紧靠前的“a”标记中。 HTML代码如下所示： div class="thumbinner" style="width:202px;"><a href="/wiki/File:Edmund-Hillary.web.jpg" class="image">img

我正在编写一个解析脚本，可以访问HTML页面中的“img”标记（我正在使用BeautifulSoup）我使用findAll方法来访问代码中的每个图像，但我还想访问额外的信息。我想要每个图像的标题，该标题位于href属性下紧靠前的“a”标记中。 HTML代码如下所示：

div class="thumbinner" style="width:202px;"><a href="/wiki/File:Edmund-Hillary.web.jpg" class="image">img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/8/8d/Edmund-Hillary.web.jpg/200px-Edmund-Hillary.web.jpg" width="200" height="272" class="thumbimage" srcset="//upload.wikimedia.........

我想既然“img”标记和“a”标记都是“div”标记的子标记，那么它们就可以通过兄弟方法访问

关于如何访问的任何建议：href=“/wiki/File:Edmund Hillary.web.jpg”

？？由于图像标记位于

标记之后，因此您希望查找父项而不是兄弟项：

>>> soup.find('img', width=True).parent['href']
'/wiki/File:Edmund-Hillary.web.jpg'

代码的另一个问题是

findAll

返回一个列表，因此不能直接调用它的

.sides

。如果您有多个图像，请使用循环。

但是如果我希望它们手牵手？对于每个特定的图像标签，我想要“a”标签是什么意思？有没有一种方法可以使用图像标签访问它，从而将它们链接起来？

>>> soup.find('img', width=True).parent['href']
'/wiki/File:Edmund-Hillary.web.jpg'