将原始html解析为有意义的内容_Html_Python 2.7_Web Scraping - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/python-2.7/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
将原始html解析为有意义的内容_Html_Python 2.7_Web Scraping - Fatal编程技术网

将原始html解析为有意义的内容

html python-2.7 web-scraping

将原始html解析为有意义的内容,html,python-2.7,web-scraping,Html,Python 2.7,Web Scraping,我从网上得到一个这样的网页 import requests html = requests.get("http://www.google.com/") 这会在html变量中返回大量垃圾，我想从中得到的是，我只需要在web浏览器中显示的数据，而不需要其他无用的数据，如htmltaghead，link，meta，script和其他无用的标记及其内容。我试着用HTMLParser模块来实现这一点，但它只是去掉了其中的标签。你知道我该如何实现这一点吗？html标题，链接，元，脚本，等等都是在web浏

我从网上得到一个这样的网页

import requests

html = requests.get("http://www.google.com/")

这会在html变量中返回大量垃圾，我想从中得到的是，我只需要在web浏览器中显示的数据，而不需要其他无用的数据，如

html

tag

head

，

link

，

meta

，

script

和其他无用的标记及其内容。我试着用

HTMLParser

模块来实现这一点，但它只是去掉了其中的标签。你知道我该如何实现这一点吗？

html

标题

，

链接

，

元

，

脚本

，等等都是在web浏览器中显示的html的一部分。据我所知，它们不是在web浏览器中显示的，而是用于动画或背景目的，所谓显示，我指的只是用户视为静态的输出。所有内容都在html中，所以请留下html，但链接、元、脚本等对我来说都是垃圾。如果我错了，请纠正我…浏览器中显示的静态元素取决于上述标记Zaid（通过css的

链接标记设置元素样式，通过javascript的脚本标记设置脚本等等）。是，我完全同意你的观点，但我需要放弃文本，我不需要任何样式或javascript代码检查：只需针对主体
，而不是答案中的容器
类。




[python 2.7]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
Google cloud platform Google Stackdriver错误报告为空（未设置）
google-cloud-platform 
Google cloud platform Google容器注册表中repo的权限
google-cloud-platform 
Google cloud platform 联机更新扳手模式非常慢
google-cloud-platform 
Elasticsearch 对等端重置弹性搜索IO连接
google-cloud-platformgoogle-cloud-dataflow 
Google cloud platform 具有发布/订阅触发器的Google云功能可扩展性限制
google-cloud-platform 
Google cloud platform Google Cloud Profiler Java代理的日志记录级别
google-cloud-platform 
Google cloud platform 从私有repo创建实例模板
google-cloud-platformgoogle-compute-engine 
Google cloud platform 使用python在数据流中每个窗口写入一个文件
google-cloud-platformgoogle-cloud-dataflow 
Google cloud platform 在GCP中无法将区域桶更改为多区域桶的原因是什么？
google-cloud-platformgoogle-cloud-storage 
Google cloud platform 如何设置多区域GCP部署？
google-cloud-platform 
Google cloud platform 将子域重定向到google云
google-cloud-platform 
Google cloud platform Google Identity Platform存储的数据的位置
google-cloud-platform 
Google cloud platform Google大查询与云SQL
google-cloud-platformgoogle-bigquery 
Google cloud platform 如何删除Ghost CMS上的binami角落横幅
google-cloud-platformssh 
Google cloud platform 如何使用pyspark writestream写入存储google云？
google-cloud-platformpyspark 
Google cloud platform 我可以为多区域GKE群集配置Google全局负载平衡器吗
google-cloud-platform 
Google cloud platform 权限\被拒绝：调用方没有权限
google-cloud-platform 
Google cloud platform 谷歌计算引擎WHM根密码
google-cloud-platformgoogle-compute-engine 
Google cloud platform 气流操纵器'；图上的s上游没有详细的上游列表
google-cloud-platformairflow 
Google cloud platform GCP多区域快照：快照的多个副本是否存储在不同的区域？
google-cloud-platform


                                        

                                        
                                        


                                                
                                                        [html]相关推荐
                                                        
HTMLDOM：如何调用选择框的更新方法？
									Html
							 									Dom
							 
（x） HTML：解析奇怪的标记
									Html
							 									Xml
							 									Parsing
							 									Tags
							 
有没有好的工具可以将HTML文档中的HTML实体转换为纯UTF字符？
									Html
							 									Windows
							 
HTML5语义
									Html
							 
silverlight中的HTML片段
									Html
							 									Silverlight
							 
Html 块样式导航css功能区仅显示一面
									Html
							 									Css
							 
Html @媒体与；“最小宽度”；所有物
									Html
							 									Google Chrome
							 									Css
							 
Html 如何在batman.js中绑定多个类？
									Html
							 									Class
							 
Html Perl：带有特定字符的颜色错误日志
									Html
							 									Perl
							 
Html 引导程序3媒体断点不工作
									Html
							 									Css
							 									Twitter Bootstrap
							 									Twitter Bootstrap 3
							 
HTML三列布局显示不正确
									Html
							 
Html Firefox灰度WOKR仅在本地
									Html
							 									Css
							 									Internet Explorer
							 									Firefox
							 
Html 我的特定dom元素需要xpath来标识该元素（SeleniumWeb驱动程序）
									Html
							 									Xpath
							 									Selenium Webdriver
							 
VBA HTML编码，尝试复制表格
									Html
							 									Vba
							 
Html 如何防止两个div被环绕并且没有水平滚动条？
									Html
							 									Css
							 
Html 4柱-固定流体
									Html
							 									Css
							 
Html Odoo 8界面在登录后未以全高显示
									Html
							 									Css
							 									Google Chrome
							 									Odoo
							 
Html Firefox中带背景色的多行标题
									Html
							 									Css
							 									Firefox
							 
Html 自动高度div中的列表
									Html
							 									Css
							 
Html 为什么我不能在这些输入框中选择？
我在CODEPDEN中构建了一个虚拟表单，在中间行中，我想让两个输入框彼此相邻，每行中有50%个输入框。我能够做到这一点，但是，我不能在任何一个输入框内单击开始键入。我开始输入每个输入的唯一方法是从第一个框开始，然后按“tab”。有什么建议吗
									Html
							 									Css
							 
Html 在1个css文件中有2个@媒体打印
									Html
							 									Css
							 
Html 服务工作者是否在争夺带宽？
									Html
							 
Html 顶部导航文本菜单赢得'；不要垂直对齐
									Html
							 									Css
							 									Twitter Bootstrap
							 
Html Body div元素将不会超过页面上的某个点
									Html
							 									Css
							 
Html 如何为Boostrap导航栏提供自定义形状
									Html
							 									Css
							 									Twitter Bootstrap 3
							 
Html 使用CSS创建放射状图像
									Html
							 									Css
							 
Html 生产网站字体比本地版本大
									Html
							 									Css
							 									Responsive Design
							 
Html 为什么我的链接说找不到文件？
									Html
							 									File
							 
HTML表格填充不起作用
									Html
							 
Html CSS——如何在2个正方形中间放置长方形
									Html
							 									Css
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Pascal
Prometheus
Post
Download
Kdb
Collections
Rx Java
Resharper
Cypress
Spring
Automation
Android
Amazon Web Services
Jvm
Amazon Dynamodb
Visual Studio
Bootstrap 4
Visual Studio Code
Sas
Azure Sql Database
Electron
Scala
Calendar
Discord
Generics
Asp.net Core
Racket
.net 4.0
Asp.net Core Mvc
Sml
Processing
Couchdb
Gdb
Clearcase
Unix
Qt
Cloud
Amp Html
Vim
Corda
Java Me
Isabelle
Object
Google Plus
3d
Plsql
Parameters
Qt4
Phantomjs
Spring Batch
Xmpp
Express
Synchronization
Variables
Forms
Graphviz
Silverlight 4.0
Apache
Kubernetes
Web
Acumatica
.net
Dotnetnuke
Animation
Telegram
Dependency Injection
Asp.net Mvc 2
Javafx
Combobox
Ibm Midrange
Office365
Ionic Framework
Windows Phone
Plone
Mpi
Uwp
Pytorch
Servlets
Maps
Web Applications
Api
D
Fullcalendar
Pyspark
Facebook
Amazon Redshift
Cobol
Ms Office
Dynamics Crm
Cakephp
Spring Mvc
Snmp
Asp Classic
Nginx
Xcode
Visual Studio 2017
Stored Procedures
E Commerce
Vb.net
Memory Leaks
Vector
Orientdb
Active Directory
Coffeescript
Struts2
Extjs4
Unit Testing
Firefox Addon
Exception
Css
Gtk
Stata
Three.js
Vaadin
Swift3
Android Emulator
Tridion
Triggers
Sugarcrm
C# 4.0
C++11
Autodesk Forge
Ssrs 2008
Geometry
Silverstripe
Excel
Yocto
Https
Ag Grid
Arangodb
Ios
Mvvm
Hybris
Merge
Ignite
Sql Server 2005
Plugins
Asynchronous
Woocommerce
Spring Integration
Opengl Es
Visual Studio 2010
Frameworks
Ldap
Dll
Ruby On Rails 3.1
Cygwin
Telerik
Exception Handling
Next.js
Latex
Phpunit
Ruby On Rails 3.2
Jersey
Nuget
Cocos2d Iphone
Identityserver4
Tableau Api
Rss
Mono
Itext
Stream
Logic
Sphinx
Algorithm
Encoding
Project Management
Layout
Elixir
View
Filter
Aem
Omnet++
.htaccess
Certificate
Zsh
Timer
EmptyTag
Grep
Ecmascript 6
Instagram
Lucene
Xslt
Playframework 2.0
Session
Swiftui
Meteor
Login
File Upload
Tsql
Ant
Apache Kafka
System Verilog
Interface
Vagrant
Spring Security
Bash
Cmake
Netbeans
Datetime
Verilog


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网