将原始html解析为有意义的内容
我从网上得到一个这样的网页将原始html解析为有意义的内容,html,python-2.7,web-scraping,Html,Python 2.7,Web Scraping,我从网上得到一个这样的网页 import requests html = requests.get("http://www.google.com/") 这会在html变量中返回大量垃圾,我想从中得到的是,我只需要在web浏览器中显示的数据,而不需要其他无用的数据,如htmltaghead,link,meta,script和其他无用的标记及其内容。我试着用HTMLParser模块来实现这一点,但它只是去掉了其中的标签。你知道我该如何实现这一点吗?html标题,链接,元,脚本,等等都是在web浏
import requests
html = requests.get("http://www.google.com/")
这会在html变量中返回大量垃圾,我想从中得到的是,我只需要在web浏览器中显示的数据,而不需要其他无用的数据,如
html
taghead
,link
,meta
,script
和其他无用的标记及其内容。我试着用HTMLParser
模块来实现这一点,但它只是去掉了其中的标签。你知道我该如何实现这一点吗?html标题
,链接
,元
,脚本
,等等都是在web浏览器中显示的html的一部分。据我所知,它们不是在web浏览器中显示的,而是用于动画或背景目的,所谓显示,我指的只是用户视为静态的输出。所有内容都在html中,所以请留下html,但链接、元、脚本等对我来说都是垃圾。如果我错了,请纠正我…浏览器中显示的静态元素取决于上述标记Zaid(通过css的链接标记设置元素样式,通过javascript的脚本标记设置脚本等等)。是,我完全同意你的观点,但我需要放弃文本,我不需要任何样式或javascript代码检查:只需针对主体
,而不是答案中的容器
类。