Web crawler facebook页面的轻版

Web crawler facebook页面的轻版,web-crawler,facebook-social-plugins,Web Crawler,Facebook Social Plugins,我们有一个网站,有1000万个产品页面,有类似fb的按钮和fb评论 Facebook似乎以69.171.228.x和69.171.229.x的速度访问我们,而计算机似乎彼此都不知道。这会导致难以消化的流量高峰,有时我们会恢复到简单地阻止fb ip:s,如果站点速度变慢 我想知道,我们使用opengraph元标记向facebook显示标题、图像等。如果我们为facebookexternalhit制作一个简单版本的页面,基本上只使用这些数据,可以吗?你指的是什么简单版本的页面 基本上,faceboo

我们有一个网站,有1000万个产品页面,有类似fb的按钮和fb评论

Facebook似乎以69.171.228.x和69.171.229.x的速度访问我们,而计算机似乎彼此都不知道。这会导致难以消化的流量高峰,有时我们会恢复到简单地阻止fb ip:s,如果站点速度变慢


我想知道,我们使用opengraph元标记向facebook显示标题、图像等。如果我们为facebookexternalhit制作一个简单版本的页面,基本上只使用这些数据,可以吗?

你指的是什么简单版本的页面


基本上,facebook使用opengraph元标记中定义的URL访问资源,如果我是正确的,它现在应该是图像的URL。我认为他们不会访问你的产品页面,你的产品页面旨在展示给人类。它还将缓存结果,并且当第二个用户从facebook查看该图像时,不会触发流量。将facebook访问的图像资源托管在另一个节点上可能是一个好主意,以减少主web服务器的负载

我已经设置了只接收facebook机器人请求的专用机器。它需要应用层检查(在用户代理上发送),但要在主站点上保持响应性,这是一个很小的代价。根据您的负载平衡器,设置专用池应该相当容易。如果您使用的是云服务器或虚拟机,您可以在几个小时内抛出实例,并在变更管理过程允许的情况下尽快将其投入生产。您还可以在此池中最大化缓存,以节省外部数据源的负载,减少日志记录等

我在发布时有一个特色网站,这是一场灾难。然而,你可以联系FB的工程师,他们实际上对帮助你很感兴趣。我们能够协商修改他们的投票间隔。这减少了我们站点上的会话创建,直到我们可以添加一个servlet过滤器来允许无会话请求(我们使用的是ATG Dynamo),直到我们可以为上面描述的池安装硬件。你也可以这样做


我认为这两种选择中的任何一种都比大嚼你的代码库要好,因为Facebook会在没有警告你的情况下改变他们的爬虫活动。在某些情况下,这样的更改可能会使您的“lightweght”页面变得无用。

抱歉,这有点不清楚。我的意思是,我将通过提供og标签来节省我和fb的带宽和cpu,基本上是:库存视频片段:狗。。。