Web scraping 在没有api的情况下高效地创建网站?

Web scraping 在没有api的情况下高效地创建网站?,web-scraping,Web Scraping,考虑到大多数语言都有内置的或由其他语言制作的web垃圾处理功能,这更像是一个一般的web垃圾处理问题 我有一个网站,我想从大约6个不同的页面拉信息。这通常不会那么糟糕;然而不幸的是,这些页面上的信息大约每十秒钟就改变一次,这可能意味着每小时超过2000个查询(这根本不好)。也没有api到我心目中的网站。有没有什么有效的方法可以在不向他们发出大量请求的情况下获取我所需的信息量,或者我运气不佳?充其量,当你发出请求时,网站可能会在标题中返回一个HTTP 304 Not Modified,表示你不需要

考虑到大多数语言都有内置的或由其他语言制作的web垃圾处理功能,这更像是一个一般的web垃圾处理问题


我有一个网站,我想从大约6个不同的页面拉信息。这通常不会那么糟糕;然而不幸的是,这些页面上的信息大约每十秒钟就改变一次,这可能意味着每小时超过2000个查询(这根本不好)。也没有api到我心目中的网站。有没有什么有效的方法可以在不向他们发出大量请求的情况下获取我所需的信息量,或者我运气不佳?

充其量,当你发出请求时,网站可能会在标题中返回一个
HTTP 304 Not Modified
,表示你不需要下载页面,因为没有任何更改。如果站点设置为这样做,这可能有助于减少带宽,但仍需要相同数量的请求


如果有一个一致的更新计划,那么至少你知道什么时候提出请求——但你仍然需要询问(即:提出请求)以了解哪些信息发生了变化。

如果结果更新较慢,你的网站用户会注意到吗?