仅从Python中的网页内容下载文本_Python_Http_Urllib2 - Fatal编程技术网

仅从Python中的网页内容下载文本

python http

仅从Python中的网页内容下载文本,python,http,urllib2,Python,Http,Urllib2,如何仅从Python中的网页下载text/html/javascript 我试图得到一些关于博客作者所写文本的统计数据。只需要文本，我想通过避免下载图片等来提高我的程序速度我能够将文本从HTML标记语言中分离出来。因此，我的意图主要是避免在网页中下载传统内容（如图像、.swf等）到目前为止，我使用： user_agent = 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; en-US) AppleWebKit/534.3 (KHTML,

如何仅从Python中的网页下载text/html/javascript
我试图得到一些关于博客作者所写文本的统计数据。只需要文本，我想通过避免下载图片等来提高我的程序速度
我能够将文本从HTML标记语言中分离出来。因此，我的意图主要是避免在网页中下载传统内容（如图像、.swf等）
到目前为止，我使用：

user_agent = 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.63 Safari/534.3' headers = {'User-Agent': user_agent} req = urllib2.Request(url, None, headers) response = urllib2.urlopen(req, timeout=60) content_type = response.info().getheader('Content-Type') if 'text/html' in content_type: return response.read()

但我不确定我是否做了正确的事情（即只下载文本）
Python beautifulsou是解析网页的最佳工具之一

import bs4 import urllib.request webpage=str(urllib.request.urlopen(link).read()) soup = bs4.BeautifulSoup(webpage) print(soup.get_text())

Python BeautifulSoup是解析网页的最佳工具之一

import bs4 import urllib.request webpage=str(urllib.request.urlopen(link).read()) soup = bs4.BeautifulSoup(webpage) print(soup.get_text())

出于性能原因，我想这样做（我将更新我的问题）。因此，我不知道你的答案是否适合我。但是，它很有用，因此+1出于性能原因，我想这样做（我将更新我的问题）。因此，我不知道你的答案是否适合我。但是它很有用，因此+1I建议查看库以更轻松地处理HTTP请求。我建议查看库以更轻松地处理HTTP请求。

[http]相关文章推荐

Http 什么IIS 6.0设置决定了如何解析路径？ http

jsf facelets和httppost http jsf soap

$http内的变量不反映块外的更改 http web-applications angularjs

用于捕获、修改和转发HTTp数据包的Burp扩展 http proxy

Http Arduino以太网无法正确初始化 http arduino

Http Nginx-如何返回代理生成的文件？ http rest nginx

HTTP授权请求标头中的用户名格式 http

当我调用listener.Close（）时，http服务器不会停止 http go

Http 雪犁分析'uid'获取参数未出现 http

Http 将对象转换为url查询参数 http angular

Http 使用Golang Gorilla包设置回调 http go

在Angular 2中与http一起使用.map http angular

http缓存-更改查询字符串是否会改变何时使用缓存响应？ http caching

Http 特定路由上的中间件 http go

golang http.request的多个parseBody http go web

golang http net/http:http/1.x传输连接断开：格式错误的http响应“\x05\x00“； http go

HTTP服务器HandleFunc循环超时？ http go server

Http 我想知道我是否在请求中发送证书 http

Http 为什么；“取消订阅”；来自电子邮件的链接使用GET方法，而不是POST、PUT、PATCH或DELETE？ http email

Delphi-如何在我的HTTP页面上通过Indy创建文件夹 http delphi

随机文章推荐

Gdb 如何使用信号调试程序？ #包括 #包括正在调试的静态易失性sig_原子=1；静态void int3_处理程序（int signo）{正在调试=0；} int main（） { 信号（信号陷阱、int3_处理器）； __asm____________;volatile____；如果（正在调试）{ puts（“不，我不想为你服务。”）；而(1){ /*无限循环*/； } } puts（“是的，这里有真正的惯例。”）；返回0； } gdb

如何将gdb调试一次限制为一个线程 gdb

Gdb 为什么watchpoint不'；t效应？ gdb

带代码的gdb分割视图 gdb

如何使用GDB分析通向系统库的堆栈跟踪？ gdb

为什么gdb认为我的x86-64程序是i386？ gdb

在不进行库调用的情况下，使用GDB调试源文件（及其本地函数）？ gdb

带和不带地址的gdb回溯帧 gdb

gdb-在二进制文件中的特定文件中设置断点 gdb

关闭GDB中的警告消息 gdb

Cygwin使GDB无用 gdb cygwin

Gdb 与#x27；单步'；和'；启用单步&x27；QEMU中的变量 gdb

如何在.gdbinit中指定静默/安静 gdb

gdbserver:映射共享库节时出错 gdb

GDB：为什么运行后内存映射会发生变化？ gdb

禁用gdb中的打印模式 gdb

RISCV用户模式断点支持需要更多“；“硬件”；对于GDB支持 gdb

[python]相关推荐

Python 让我自己的班级表现得像numpy.ndarray
Python Class Numpy

Python Django自定义用户创建表单
Python Django

Python 在多个架构中执行alembic升级
Python Postgresql Flask Sqlalchemy

通过单击创建整洁、可安装的Python库
Python

Python 批量保存复杂对象SQLAlchemy
Python Sqlalchemy

Python 如何在django中将图像上载的标题更改为类中的名称
Python Django Class Model

Python h5py安装后的错误
Python Macos Numpy

构建脚本集合的Python项目
Python

Couchbase:python SDK“；“向上”；
Python Couchbase

Python “最快的计算方法”；余弦；使用scipy的度量
Python

在python应用程序中验证Google Analytics API批处理请求时遇到问题
Python Google Analytics

Python 拉链线错误：AttributeError:'；非类型'；对象没有属性'；获取csv'；
Python Python 2.7

如何使用pyinstaller打包pytest python文件
Python

我可以用python 2.7.13安装robotframework 3.0.2rc1版本吗
Python Selenium Robotframework

Python 在使用tensorflow对神经网络进行一段时间的训练后生成NAN
Python Tensorflow Neural Network

使用Python直接从PostGIS绘制几何图形
Python Postgresql

Python 根据url Django发送不同的错误
Python Django Django Rest Framework

Python 检查商品是否已交付至特定国家/地区或未使用亚马逊API？
Python Amazon Web Services

Python 静态变量：未在其他构造函数中定义
Python Python 3.x

Python 上传谷歌驱动API——这些额外的空行来自哪里？
Python Google Api Google Drive Api

Python 如何让tormysql进行插入？
Python Mysql Asynchronous Web Scraping

Python 我做错了什么？我如何修复它？
Python Sqlite

Python 在不同条件下，在一行中接收不同数量的返回值
Python

Python ubuntu服务器上的Opencv级联训练参数
Python Opencv

Python 正则表达式：为什么在re.findall（）中包含空字符串（在元组列表中）？
Python Regex

Python 如何使用Django 1.6注释查询集与Django ORM的泛型关系中的字段计数
Python Orm

Python 如何复制局部或骨架文件
Python

Python 无法关闭gtk对话框窗口
Python

Python 是否存在应明确跟踪或忽略的事件？
Python Python 3.x Error Handling

Python 使用OneHotEncoding更改分类变量时出现问题
Python Python 3.x

Tags

Ionic Framework Asynchronous Sdk Google Chrome Devtools Django Models Navigation Email Linq To Sql Verilog Computer Science Web Services Tags Google Chrome Extension Raspberry Pi Vue.js Apache Asp.net Mvc Tsql Laravel 4 Java 8 Tabs Hyperlink Windbg Jira Ssis Tree Lotus Notes Tinymce Teamcity Loopbackjs Cassandra Wpf Extjs4 Soap Instagram Office365 Biztalk Javafx 2 Abap Qml Jpa Floating Point Windows Phone 8.1 Inno Setup Autocomplete Parameters Ms Office Cron Dependency Injection Character Encoding Openlayers Iis 7 Passwords Process Coding Style Hyperledger Fabric Atom Editor Asterisk Xampp Canvas Java Ip Ssl Angular Material Laravel 5 Uml Oracle Deep Learning Tcp Firebase Influxdb Random Function Doctrine Database Snowflake Cloud Data Platform Model Cordova Postman Hybris Cocos2d X Monitoring C++ Cli Bash Parse Platform Amazon S3 Linker Highcharts Jar Azure Dotnetnuke D Blockchain Apache Spark Inheritance Mercurial Vagrant Twilio Web Crawler Db2 Amazon Cloudformation Scripting Discord.py Laravel Sorting Sql Server 2008 Matrix Batch File Log4net Php Migration Content Management System Zurb Foundation Arangodb Java Me Common Lisp Elm Jasper Reports Facebook Path Maven 2 Authentication Machine Learning Hive Web Applications Vb6 Exception Numpy Sails.js Date Regex File Upload Google Calendar Api Memory Management Xpath Git Maps Join Seo Windows 10 Xquery Json Akka Css Parsing Localization Jms File Zend Framework2 Polymer Oauth 2.0 Ldap .net Core Macos Amp Html Dask Rally Appium Ionic2 Joomla Google Apps Script Csv Sharepoint 2010 Kibana Outlook Types Virtual Machine Reactjs Google Cloud Platform Download Http Magento E Commerce Enums Mapping Ethereum Imagemagick Chart.js Pycharm Google Bigquery Titanium Open Source Jboss Kendo Ui Caching Gridview Activemq Methods Drupal 7 Asp.net Core Mvc Wxpython Testng Sequelize.js Serial Port Maven Plugins Synchronization Spring Cloud Less Fonts Objective C

Copyright © 2024. All Rights Reserved by - Fatal编程技术网