Python 2.7 如何从输出中删除html内容?

Python 2.7 如何从输出中删除html内容?,python-2.7,web-crawler,Python 2.7,Web Crawler,我正在尝试制作一个网络爬虫,但是当我运行上面的代码时,一些HTML内容也会被打印出来。我只想要网页的文本部分和超链接。一个基本的解决方案是。拆分“”标记,然后检查结果列表以从任何位置删除元素.使用Beauty soup library制作网络爬虫和处理HTML标记 import urllib data = urllib.urlopen("https://www.python.org/") for line in data: line.strip() print line

我正在尝试制作一个网络爬虫,但是当我运行上面的代码时,一些HTML内容也会被打印出来。我只想要网页的文本部分和超链接。一个基本的解决方案是。拆分“”标记,然后检查结果列表以从任何位置删除元素.

使用Beauty soup library制作网络爬虫和处理HTML标记

import urllib

data = urllib.urlopen("https://www.python.org/")
for line in data:
    line.strip()
    print line