Python 静态HTML网页的其他解析内容?

Python 静态HTML网页的其他解析内容?,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我正在创建一个Python web scraper,我让它打印我输入的网页的标题和span。我一直在四处寻找,但找不到网页的其他元素 Python是否可以使用bs4/BeautifulSoup/请求访问网站的任何其他部分 我发现了一个head元素,但我肯定还有更多的元素。是您可以找到的HTML标记列表。在bs4中,通常使用find或findAll方法来刮取页面。这些函数的第一个参数是要搜索的标记的名称。下面是一些如何使用findAll方法的示例:https://www.crummy.com/so

我正在创建一个Python web scraper,我让它打印我输入的网页的
标题
span
。我一直在四处寻找,但找不到网页的其他元素

Python是否可以使用
bs4
/
BeautifulSoup
/
请求访问网站的任何其他部分

我发现了一个
head
元素,但我肯定还有更多的元素。

是您可以找到的HTML标记列表。在bs4中,通常使用
find
findAll
方法来刮取页面。这些函数的第一个参数是要搜索的标记的名称。下面是一些如何使用findAll方法的示例:
https://www.crummy.com/software/BeautifulSoup/bs3/documentation.html#The%20basic%20find%20method:%20findAll(名称、%20attrs、%20recursive、%20text、%20limit、%20**kwargs)
(Stackoverflow不允许我将链接粘贴为超链接)

或者,您可以像这样遍历文档树:

def walker(汤):
如果soup.name不是None:
对于汤中的儿童。儿童:
#进程节点
打印str(child.name)+“:”+str(type(child))
沃克(儿童)
沃克(汤)
摘自:


这将以深度优先搜索的方式从根开始遍历树中的每个节点。通过递归地查看每个节点的子节点,然后查看子节点的子节点,依此类推。

您是否可以更新您的答案,向我们展示您迄今为止所做的尝试?还要注意的是:
body
标记是
head
标记的兄弟。有些页面可能使用自己的标记,这在HTML规范中找不到。并且页面可能在
内有额外的标记,