Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/351.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/80.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
从网页构建大纲,python_Python_Html - Fatal编程技术网

从网页构建大纲,python

从网页构建大纲,python,python,html,Python,Html,我正在尝试创建一个函数,该函数用于打开URL并从HTML代码构造大纲。大纲应包括任何…标记之间的文本。基本上只是从特定网页创建大纲。每个标题级别也应正确编号,标题hx具有x个编号级别。如何开始?在您链接的html中,除了标题之外,还有很多标记。无论如何,这是为了让您开始: 您需要软件包beautifulsoup4和请求此。Python为这些操作提供了内置的包,但是上面的两个包使这项工作非常容易 import requests from bs4 import BeautifulSoup html

我正在尝试创建一个函数,该函数用于打开URL并从HTML代码构造大纲。大纲应包括任何…标记之间的文本。基本上只是从特定网页创建大纲。每个标题级别也应正确编号,标题hx具有x个编号级别。如何开始?

在您链接的
html
中,除了
标题之外,还有很多标记。无论如何,这是为了让您开始:

您需要软件包
beautifulsoup4
和请求
。Python为这些操作提供了内置的包,但是上面的两个包使这项工作非常容易

import requests
from bs4 import BeautifulSoup

html = requests.get("http://homepage.cs.uiowa.edu/~lillis/016/2014Summer/assignments/HW12/jazz.html").text
#If you want to parse another url, change the link within get()
soup = BeautifulSoup(html, "lxml")
print soup.body

这将打印所有
标记
文本
以及
html
正文
标记内的其他内容。如果您想要不同的输出或更具体的内容,请在下面添加注释。我将更改代码

如果您能给出一个html示例和相应的output@user2963623基本上,我是从这里创建一个大纲。有没有其他方法可以使用和标记来构建大纲?所以你只需要标题标记?是的,只有标题。当你读标题的行时,它们是刺痛的还是列表的?