从网页构建大纲，python_Python_Html

从网页构建大纲，python

python html

从网页构建大纲，python,python,html,Python,Html,我正在尝试创建一个函数，该函数用于打开URL并从HTML代码构造大纲。大纲应包括任何…标记之间的文本。基本上只是从特定网页创建大纲。每个标题级别也应正确编号，标题hx具有x个编号级别。如何开始？在您链接的html中，除了标题之外，还有很多标记。无论如何，这是为了让您开始：您需要软件包beautifulsoup4和请求此。Python为这些操作提供了内置的包，但是上面的两个包使这项工作非常容易 import requests from bs4 import BeautifulSoup html

我正在尝试创建一个函数，该函数用于打开URL并从HTML代码构造大纲。大纲应包括任何…标记之间的文本。基本上只是从特定网页创建大纲。每个标题级别也应正确编号，标题hx具有x个编号级别。如何开始？

在您链接的

html

中，除了

标题之外，还有很多标记。无论如何，这是为了让您开始：
您需要软件包beautifulsoup4
和请求此
。Python为这些操作提供了内置的包，但是上面的两个包使这项工作非常容易
import requests
from bs4 import BeautifulSoup

html = requests.get("http://homepage.cs.uiowa.edu/~lillis/016/2014Summer/assignments/HW12/jazz.html").text
#If you want to parse another url, change the link within get()
soup = BeautifulSoup(html, "lxml")
print soup.body

这将打印所有标记
、文本
以及html
的正文
标记内的其他内容。如果您想要不同的输出或更具体的内容，请在下面添加注释。我将更改代码
 如果您能给出一个html示例和相应的output@user2963623基本上，我是从这里创建一个大纲。有没有其他方法可以使用和标记来构建大纲？所以你只需要标题标记？是的，只有标题。当你读标题的行时，它们是刺痛的还是列表的？