Networking 在远程服务器上优化Google搜索设备

Networking 在远程服务器上优化Google搜索设备,networking,network-traffic,google-search-appliance,Networking,Network Traffic,Google Search Appliance,我计划部署一个谷歌搜索设备来远程索引一个内部网站(横贯大陆)。因此,我将使用该公司的网络,并可能消耗太多的带宽。 关于我可以用来减轻初始爬网影响的配置(这是唯一被认为对网络有危险的配置),我们有: 爬网和索引>主机加载计划 Web服务器主机负载:基本上是在1分钟内并发连接到已爬网服务器的数量,因此应该最小化此设置 Web服务器主机负载异常:这是一个用于增加或减少到已爬网服务器的并发连接数的计划 爬网和索引>爬网计划 我应该选择定时爬网,而不是连续爬网 我是否在正确的轨道上,是否可以配

我计划部署一个谷歌搜索设备来远程索引一个内部网站(横贯大陆)。因此,我将使用该公司的网络,并可能消耗太多的带宽。 关于我可以用来减轻初始爬网影响的配置(这是唯一被认为对网络有危险的配置),我们有:

  • 爬网和索引>主机加载计划
    • Web服务器主机负载:基本上是在1分钟内并发连接到已爬网服务器的数量,因此应该最小化此设置
    • Web服务器主机负载异常:这是一个用于增加或减少到已爬网服务器的并发连接数的计划
  • 爬网和索引>爬网计划
    • 我应该选择定时爬网,而不是连续爬网

我是否在正确的轨道上,是否可以配置其他设置以避免在GSA和Web服务器之间产生过多的网络流量?

是的,我还将查看
新鲜度调整
重复主机

  • 主机加载计划

    • Web服务器主机负载
    • Web服务器主机负载异常
  • 爬网计划

    • 爬行模式
  • 新鲜度调整

    • 频繁爬行
    • 不常爬

正如谭宏达所说,看看新鲜度调整和复制主机。 我会将其设置为不经常爬网,至少在初始爬网完成之前是这样

还要做一些内容分析。使用爬网模式,您可以指示GSA忽略某些内容类型(基于文件扩展名)或内部网中不包含对搜索体验有价值的内容的区域

设置主机负载时,请记住可以使用0-1之间的十进制值,例如:0.1


如果他们有一个合适的广域网优化器,你可能会发现这并不像你想象的那么严重。

减少远程站点爬行的最佳方法是不要爬行。如果不能做到这一点,有几个设置将有助于它,如上所述:

1) 主机加载计划

这将设置为主机爬虫程序设置的当前线程数请注意,这可能是一个低于1的数字。(即2.5)(也由BigMikeW指出)

2) 新鲜度调节

“不经常爬网”实际上意味着“再也不会爬网”。这与元url提要配合使用效果很好,后者将告诉GSA重新爬网页面或来自管理控制台的重新爬网请求。频繁爬行实际上意味着:“每天爬行一次”。现在爬虫程序已经重新调整,硬件也更快了,这个设置实际上没有什么意义。GSA将每天向其找到的页面提交请求

3) 爬网时间表

我发现关闭爬虫程序并不是更好,而是将其保持在连续模式,并将阈值设置为零。这允许自然的GSA算法发挥作用。您希望通过调度实现的任何事情都可以通过在您希望爬虫安静的时间段内将其调整为零来实现

我建议尽量减少广域网流量: 1) 检查DNS并在必要时添加覆盖,以确保路由到最近的内容源 2) 将内容源模式设置为不经常爬网 3) 创建元url提要以推送内容更新

最后一个需要一些编码。这里有一个示例站点地图馈送器:

通过这种配置,GSA将永远不会重新爬网内容,并将依靠提要通知其更新

备选方案:
1) 确保内容源以最后修改的日期响应HEAD请求。不要不经常配置爬网。GSA将检测Delta并随着时间的推移减慢爬行速度。

感谢您的全面回复!我只有一个问题,如果我在晚上设置了爬网时间表,在第一次爬网的情况下(可能会持续一个晚上以上),它会在第二天晚上继续爬网吗?或者它会在每天晚上的日程开始时从头开始重新爬行吗?是的。当您调整主机负载时…爬网队列将建立或减少。当主机负载增加时,爬网队列将开始减少。当你进行批量爬网时,事情往往会变得很奇怪,所以我们总是使用这种方法。