Web 谷歌如何抓取专有网站？_Web_Web Scraping_Googlebot

Web 谷歌如何抓取专有网站？

web web-scraping

Web 谷歌如何抓取专有网站？,web,web-scraping,googlebot,Web,Web Scraping,Googlebot,我只是想知道，既然像《纽约时报》这样的网站对你可以阅读的文章数量有限制（我想可能是通过IP或会话cookie/两者的结合），谷歌机器人是如何抓取他们的页面的呢？他们故意向谷歌机器人开放，以便对他们的内容进行索引。总之，如果我试图刮取他们文章的标题，我只会在X个请求后被阻止？还有什么方法可以访问页面的opengraph数据吗？（因为这才是我真正感兴趣的）进一步说佩卡的话，我相信你可以通过将浏览器的用户代理重置为谷歌机器人（不一定提倡它，但只要它显示了它的工作原理，你就可以从报纸网站上读到你喜欢的任

我只是想知道，既然像《纽约时报》这样的网站对你可以阅读的文章数量有限制（我想可能是通过IP或会话cookie/两者的结合），谷歌机器人是如何抓取他们的页面的呢？

他们故意向谷歌机器人开放，以便对他们的内容进行索引。总之，如果我试图刮取他们文章的标题，我只会在X个请求后被阻止？还有什么方法可以访问页面的opengraph数据吗？（因为这才是我真正感兴趣的）进一步说佩卡的话，我相信你可以通过将浏览器的用户代理重置为谷歌机器人（不一定提倡它，但只要它显示了它的工作原理，你就可以从报纸网站上读到你喜欢的任何文章）@halfer：这是否意味着对于一般用途的刮削，我将不得不使用无头浏览器，如PhantomJS？（请始终使用手柄，例如

@halfer

来联系人。我现在没有看到您的通知）。