Search 将GSA配置为对内容进行爬网

Search 将GSA配置为对内容进行爬网,search,google-search-appliance,Search,Google Search Appliance,我的网站是www.abc.com,有一个特定的url模式,包含安全和非安全内容。例如,www.abc.com/foo/xxx根据内容提供安全/开放内容 我如何告诉GSA对安全内容使用安全爬网?我知道这很简单,就是特定的url总是提供安全的内容。我读过谷歌的支持网站,但GSA怎么知道一些URL是安全内容呢?我无法在GSA管理控制台中列出所有URL,因为有超过10K个这样的唯一URL。我知道您网站中的一些URL是安全的,其余的是公共URL。 您想告诉GSA仅对安全URL使用受控访问内容爬网。 如果是

我的网站是www.abc.com,有一个特定的url模式,包含安全和非安全内容。例如,www.abc.com/foo/xxx根据内容提供安全/开放内容


我如何告诉GSA对安全内容使用安全爬网?我知道这很简单,就是特定的url总是提供安全的内容。我读过谷歌的支持网站,但GSA怎么知道一些URL是安全内容呢?我无法在GSA管理控制台中列出所有URL,因为有超过10K个这样的唯一URL。

我知道您网站中的一些URL是安全的,其余的是公共URL。 您想告诉GSA仅对安全URL使用受控访问内容爬网。 如果是这种情况,那么您必须将所有受保护的内容移动到一些常见模式,例如:www.abc.com/secured/xxx,并使用受控访问内容爬网对该模式进行爬网。 如果这不是一个可行的解决方案,那么在网页上添加一些元标记 (对于打开的页面-添加查看器=公共,对于安全页面-添加查看器=安全),使用受控访问内容爬网对整个站点进行爬网,并使用GSA配置将所有URL公开。
为了提供结果,请在应用程序中进行身份验证,并在viewers requiredfields参数中使用适当的值查询GSA。

您的问题(而不是您的问题)的答案是:

GSA将根据web服务器的http响应确定内容是否安全。如果您的内容以401或301/302响应,则GSA将假定此内容是安全的


公共内容是确定内容是否回复200。

谢谢!当GSA点击安全内容url时,它将被重定向到登录页面。因此,GSA只有通过登录页面才能读取元数据。我如何处理这种情况?您的网站是否受SSO保护?如果是这样,那么您必须在gsa中使用表单身份验证配置。在设置表单身份验证后尝试爬网您的安全页面。您必须根据您的网站身份验证方法配置gsa。例如:如果gsa受SSO保护,您必须在gsa中使用表单身份验证。如果您正确配置,然后,gsa将通过向登录页面提供凭据来为安全页面编制索引。谢谢@Mohan,您的回答帮助我解决了这个问题。我只想提一下,我们需要将安全URL标记为公共URL,以便在匿名用户的搜索结果中公开它们。我们需要选中url旁边的“公开”复选框。