Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/python-2.7/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
将原始html解析为有意义的内容_Html_Python 2.7_Web Scraping - Fatal编程技术网

将原始html解析为有意义的内容

将原始html解析为有意义的内容,html,python-2.7,web-scraping,Html,Python 2.7,Web Scraping,我从网上得到一个这样的网页 import requests html = requests.get("http://www.google.com/") 这会在html变量中返回大量垃圾,我想从中得到的是,我只需要在web浏览器中显示的数据,而不需要其他无用的数据,如htmltaghead,link,meta,script和其他无用的标记及其内容。我试着用HTMLParser模块来实现这一点,但它只是去掉了其中的标签。你知道我该如何实现这一点吗?html标题,链接,元,脚本,等等都是在web浏

我从网上得到一个这样的网页

import requests

html = requests.get("http://www.google.com/")

这会在html变量中返回大量垃圾,我想从中得到的是,我只需要在web浏览器中显示的数据,而不需要其他无用的数据,如
html
tag
head
link
meta
script
和其他无用的标记及其内容。我试着用
HTMLParser
模块来实现这一点,但它只是去掉了其中的标签。你知道我该如何实现这一点吗?

html
标题
链接
脚本
,等等都是在web浏览器中显示的html的一部分。据我所知,它们不是在web浏览器中显示的,而是用于动画或背景目的,所谓显示,我指的只是用户视为静态的输出。所有内容都在html中,所以请留下html,但链接、元、脚本等对我来说都是垃圾。如果我错了,请纠正我…浏览器中显示的静态元素取决于上述标记Zaid(通过css的
链接
标记设置元素样式,通过javascript的
脚本
标记设置脚本等等)。是,我完全同意你的观点,但我需要放弃文本,我不需要任何样式或javascript代码检查:只需针对
主体
,而不是答案中的
容器
类。