从网页构建大纲,python
我正在尝试创建一个函数,该函数用于打开URL并从HTML代码构造大纲。大纲应包括任何…标记之间的文本。基本上只是从特定网页创建大纲。每个标题级别也应正确编号,标题hx具有x个编号级别。如何开始?在您链接的从网页构建大纲,python,python,html,Python,Html,我正在尝试创建一个函数,该函数用于打开URL并从HTML代码构造大纲。大纲应包括任何…标记之间的文本。基本上只是从特定网页创建大纲。每个标题级别也应正确编号,标题hx具有x个编号级别。如何开始?在您链接的html中,除了标题之外,还有很多标记。无论如何,这是为了让您开始: 您需要软件包beautifulsoup4和请求此。Python为这些操作提供了内置的包,但是上面的两个包使这项工作非常容易 import requests from bs4 import BeautifulSoup html
html
中,除了标题之外,还有很多标记。无论如何,这是为了让您开始:
您需要软件包beautifulsoup4
和请求此
。Python为这些操作提供了内置的包,但是上面的两个包使这项工作非常容易
import requests
from bs4 import BeautifulSoup
html = requests.get("http://homepage.cs.uiowa.edu/~lillis/016/2014Summer/assignments/HW12/jazz.html").text
#If you want to parse another url, change the link within get()
soup = BeautifulSoup(html, "lxml")
print soup.body
这将打印所有标记
、文本
以及html
的正文
标记内的其他内容。如果您想要不同的输出或更具体的内容,请在下面添加注释。我将更改代码 如果您能给出一个html示例和相应的output@user2963623基本上,我是从这里创建一个大纲。有没有其他方法可以使用和标记来构建大纲?所以你只需要标题标记?是的,只有标题。当你读标题的行时,它们是刺痛的还是列表的?