Python 如何检查网站的服务器功能？_Python_Web Scraping_Server_Scrapy_Web Crawler

Python 如何检查网站的服务器功能？

python web-scraping server scrapy web-crawler

Python 如何检查网站的服务器功能？,python,web-scraping,server,scrapy,web-crawler,Python,Web Scraping,Server,Scrapy,Web Crawler,我正试图从一个在线新闻网站上截取新闻文章。我计划使用的方法需要每天加载1000页（url重定向）新闻文章，并且我必须在过去30年的数据中重复这种方法根据robots.txt文件，我从中抓取的页面是所有用户代理都允许的我知道所有的url都是直接用于抓取的，但是我担心大量的页面加载会给网站服务器带来负担。我只是尝试获取html代码的正文（例如页面），因此不会进行复杂的爬网我运行了一个流量检查器来了解这个网站有多大，下面是我得到的结果：它看起来是一个相当大的服务器，有很多访问者，但是如果我想要

我正试图从一个在线新闻网站上截取新闻文章。我计划使用的方法需要每天加载1000页（url重定向）新闻文章，并且我必须在过去30年的数据中重复这种方法

根据robots.txt文件，我从中抓取的页面是所有用户代理都允许的

我知道所有的url都是直接用于抓取的，但是我担心大量的页面加载会给网站服务器带来负担。我只是尝试获取html代码的正文（例如页面），因此不会进行复杂的爬网

我运行了一个流量检查器来了解这个网站有多大，下面是我得到的结果：

它看起来是一个相当大的服务器，有很多访问者，但是如果我想要1000（页面加载）x300（每年几天）x30（每年几天）页面加载，比如说，持续运行python脚本一周，我需要每小时请求50000页，从公司的角度来看，这是一个粗略的请求

我应该在更多的研究之后减少必要的请求数量，还是这样一个规模的网站能够每小时处理5万页

谢谢。

您有没有试着询问网站所有者？也许他们会温和地给你这些数据，以避免类似dos的情况。