Web 谷歌如何抓取专有网站?

Web 谷歌如何抓取专有网站?,web,web-scraping,googlebot,Web,Web Scraping,Googlebot,我只是想知道,既然像《纽约时报》这样的网站对你可以阅读的文章数量有限制(我想可能是通过IP或会话cookie/两者的结合),谷歌机器人是如何抓取他们的页面的呢?他们故意向谷歌机器人开放,以便对他们的内容进行索引。总之,如果我试图刮取他们文章的标题,我只会在X个请求后被阻止?还有什么方法可以访问页面的opengraph数据吗?(因为这才是我真正感兴趣的)进一步说佩卡的话,我相信你可以通过将浏览器的用户代理重置为谷歌机器人(不一定提倡它,但只要它显示了它的工作原理,你就可以从报纸网站上读到你喜欢的任

我只是想知道,既然像《纽约时报》这样的网站对你可以阅读的文章数量有限制(我想可能是通过IP或会话cookie/两者的结合),谷歌机器人是如何抓取他们的页面的呢?

他们故意向谷歌机器人开放,以便对他们的内容进行索引。总之,如果我试图刮取他们文章的标题,我只会在X个请求后被阻止?还有什么方法可以访问页面的opengraph数据吗?(因为这才是我真正感兴趣的)进一步说佩卡的话,我相信你可以通过将浏览器的用户代理重置为谷歌机器人(不一定提倡它,但只要它显示了它的工作原理,你就可以从报纸网站上读到你喜欢的任何文章)@halfer:这是否意味着对于一般用途的刮削,我将不得不使用无头浏览器,如PhantomJS?(请始终使用手柄,例如
@halfer
来联系人。我现在没有看到您的通知)。