如何使用Python有效地分析大量网页？_Python_Html_Url_Urllib2 - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/85.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用Python有效地分析大量网页？_Python_Html_Url_Urllib2 - Fatal编程技术网

如何使用Python有效地分析大量网页？

python html url

如何使用Python有效地分析大量网页？,python,html,url,urllib2,Python,Html,Url,Urllib2,所以我用Python创建了一个程序，收集我使用的论坛的帖子统计信息。它基本上循环浏览一长串URL，用urllib.request.urlopen打开每个URL，并收集每篇文章的信息。我遇到的问题是，这个网站显然不喜欢我不断地打开他们的URL，并且尽可能地阻止我这样做。（我假设这是他们防止垃圾桶泛滥的方法）在这之后，我尝试使用站点下载应用程序，比如SiteSucker。但是我的电脑没有足够的空间容纳7000页的HTML，所以这也不行我想要的是能够用Python安全地下载每个页面，分析它的HT

所以我用Python创建了一个程序，收集我使用的论坛的帖子统计信息。它基本上循环浏览一长串URL，用urllib.request.urlopen打开每个URL，并收集每篇文章的信息。我遇到的问题是，这个网站显然不喜欢我不断地打开他们的URL，并且尽可能地阻止我这样做。（我假设这是他们防止垃圾桶泛滥的方法）
在这之后，我尝试使用站点下载应用程序，比如SiteSucker。但是我的电脑没有足够的空间容纳7000页的HTML，所以这也不行

我想要的是能够用Python安全地下载每个页面，分析它的HTML，然后删除它，而不会被网站阻止。任何解决方案？
请求将忽略robots.txt和其他可能的bot保护，以便在您安装后使用Beautifulsoup解析html

from bs4 import BeautifulSoup
输入它。这是beautifulsoup的网站和请求的网站

[html]相关文章推荐

随机文章推荐

Session 你能帮我理解吗&引用；常见的休息错误：会话不相关”； session rest

Session 遗留（经典）ASP代码会话问题 session asp-classic

Session Azure和会话状态下的多个webRole实例 session azure

Session 如何将会话cookie配置为仅http session

Session Grails/Spring安全性是否重用会话？ session grails spring-security

Session 回收IIS应用程序池是否会导致正在进行的会话出现问题？ session iis iis-7

Session Ubercart在购物车中为不同的会话保留项目 session drupal drupal-6

Session 获取旧的REST会话密钥 session

Session Tomcat7上的GWT显示一个会话 session gwt tomcat

Session 浏览器关闭时Opera不会删除会话cookie session cookies

Session Couchdb:使用“登录”；“记住我”；功能 session couchdb

Session Rails 4和ActiveAdmin分离的会话 session ruby-on-rails-4 cookies

Session 如何使会话数据只保留两个请求 session grails

Session 面临Cakephp会话问题 session cakephp

Session 如何配置resin4将会话保存到redis session redis

Session 如果用户未登录，Jsf会话超时处理 session jsf

Session 如何关闭用户打开的除当前会话之外的所有（plone）会话？ session plone

Session 来自Spring的Cookie未保存在浏览器中 session cookies spring-security postman

Session 使用Spring Boot在microservices体系结构中管理会话的位置 session oauth-2.0 microservices

Session 露天会话超时 session alfresco

[python]相关推荐

Python日志记录的摘要计数
Python Logging

Python链getattr作为字符串
Python

如何在python中检查元素是否只在列表中出现一次？
Python List

Python PyQT-将文件复制到剪贴板
Python

python数学的替代方案
Python

Python 用OpenCV计算图像的离散余弦变换
Python Opencv Computer Vision

在python中获取64位整数
Python

Python 如何让PLY忽略正则表达式的大小写？
Python Regex

python对象在执行期间是否在内存中移动？
Python

Python PyQt：搜索项目QTableWidget并获取它'；s坐标？
Python Search

Python 如何向用户询问项目数量，然后为每个项目分配一个编号？
Python Python 3.x Dictionary Syntax

Python change（）缺少1个必需的位置参数：'；X'；在预测未来价值时
Python Python 3.x Time

Python 从HSV图像中提取叶绿素筛选的平均颜色
Python Opencv

Python 忽略某些键的两个字典列表之间的差异
Python List Dictionary

Python Seaborn条形图y轴的值与预期值不同
Python Pandas Matplotlib

python—是否可以将GZIPAPI响应文件拆分为更小的GB
Python Json Api

Python：除了少数列之外，如何从df中删除和保存记录？
Python Pandas

Python 获取变量的近似值而不是精确值
Python

Python 如何合并通过for循环创建的数据帧（同名）？
Python Pandas

Python 使用同一密钥从多个DICT创建列表
Python

Python '；QuerySet'；对象没有属性'；保存'；使用django
Python Django Django Models

Python 将数据从django模型传递到列表中
Python Django List Model

Python 第一排是和熊猫在一起的蟒蛇
Python Pandas

Python 如何在wait_for on discord.py中使用多个签入
Python Discord.py

Python中的校验和计算
Python Python 3.x

如何在python上使用selenium检查是否单击了按钮
Python

Python 芹菜在multidocker worker中的应用
Python Flask Kubernetes Rabbitmq

如何将字符串转换为python对象？
Python Django

PYTHON-从用户字符串在函数内部创建LAMBDA函数以在应用程序上使用
Python Pandas

Python 获得；索引器：列表索引“；超出范围误差
Python Python 3.x

Tags

Phantomjs Yaml Asp.net Mvc 2 Rabbitmq Woocommerce Interface Ios7 Angular6 Powerbi Eclipse Rcp Localization Xcode Scrapy Windows 10 Apache Flex Vhdl Numpy Transactions Datatables Playframework 2.0 Tags Laravel 4 Parameters Database Design Chef Infra Sugarcrm Asterisk Inheritance Kdb Jupyter Notebook Elm Leaflet Asp.net Api E Commerce D Checkbox Ffmpeg Django Rest Framework Spring Cors Protocol Buffers Jasper Reports Stm32 Sql Server 2008 R2 Pip Com Redirect Rust Wxpython Cryptography Java Nosql Gatsby Ipad Ftp Android Studio Firefox Addon Openid EmptyTag Titanium Silverstripe Playframework Entity Framework Core Ssl Ssas Jar Clearcase Windows Installer Caching Verilog Nsis List Asp.net Mvc 3 Teradata Embedded Arangodb Ionic Framework Scikit Learn Mercurial File Upload Shiny Amazon Dynamodb Sonarqube Xpages Mono Groovy Methods Google Sheets Itext Redis String Google Visualization File Io Dynamic Logic Sdk Wicket Web Applications Omnet++ Amazon Cloudformation Cocos2d X Compression Rss Ag Grid Merge Performance Laravel 5 Dotnetnuke Project Management Grails Mediawiki Arm Amazon Ec2 Debugging Operating System Deployment Macros Google Colaboratory Windows 8 Arduino Tridion Cakephp Log4j Telegram Graphql Mvvm Autodesk Forge Intellij Idea Graph Doctrine Orm Tcp Nestjs Xml Google Calendar Api Css Bluetooth Openerp Instagram Sql Server 2005 Kubernetes Ios8 Netty Opengl Opencv Lua Xamarin.ios Inno Setup Sitecore C++11 Ionic2 Silverlight Cron Nginx Phpstorm Vector Telerik Winforms Docker Compose Webstorm Google Drive Api Jvm Google Cloud Dataflow Jms Symfony1 Redux Iframe Pine Script Visual Studio 2008 Authentication Ssrs 2008 Linux Jestjs Julia Debian Postgresql Map Fiware Routes Websphere Unicode Xamarin.android Navigation Sapui5 Combobox Magento Google Compute Engine Docker Llvm Sencha Touch Apache Zookeeper Spring Boot Keycloak Gdb Neural Network Reactjs Uml Google Maps Pyspark Exception Handling Timer

Copyright © 2024. All Rights Reserved by - Fatal编程技术网