Python 如何检查网站的服务器功能?

Python 如何检查网站的服务器功能?,python,web-scraping,server,scrapy,web-crawler,Python,Web Scraping,Server,Scrapy,Web Crawler,我正试图从一个在线新闻网站上截取新闻文章。我计划使用的方法需要每天加载1000页(url重定向)新闻文章,并且我必须在过去30年的数据中重复这种方法 根据robots.txt文件,我从中抓取的页面是所有用户代理都允许的 我知道所有的url都是直接用于抓取的,但是我担心大量的页面加载会给网站服务器带来负担。我只是尝试获取html代码的正文(例如页面),因此不会进行复杂的爬网 我运行了一个流量检查器来了解这个网站有多大,下面是我得到的结果: 它看起来是一个相当大的服务器,有很多访问者,但是如果我想要

我正试图从一个在线新闻网站上截取新闻文章。我计划使用的方法需要每天加载1000页(url重定向)新闻文章,并且我必须在过去30年的数据中重复这种方法

根据robots.txt文件,我从中抓取的页面是所有用户代理都允许的

我知道所有的url都是直接用于抓取的,但是我担心大量的页面加载会给网站服务器带来负担。我只是尝试获取html代码的正文(例如页面),因此不会进行复杂的爬网

我运行了一个流量检查器来了解这个网站有多大,下面是我得到的结果:

它看起来是一个相当大的服务器,有很多访问者,但是如果我想要1000(页面加载)x300(每年几天)x30(每年几天)页面加载,比如说,持续运行python脚本一周,我需要每小时请求50000页,从公司的角度来看,这是一个粗略的请求

我应该在更多的研究之后减少必要的请求数量,还是这样一个规模的网站能够每小时处理5万页


谢谢。

您有没有试着询问网站所有者?也许他们会温和地给你这些数据,以避免类似dos的情况。