Apache 不允许对CDN站点进行爬网
所以我有一个网站 JS/CSS/图像由CDN-OR提供;它们都是一样的东西。现在CDN只提供任何类型的文件,包括我的PHP页面。谷歌不知何故也爬上了CDN网站;实际上有两个站点-从cdn.example.com和从。考虑到Apache 不允许对CDN站点进行爬网,apache,seo,cdn,Apache,Seo,Cdn,所以我有一个网站 JS/CSS/图像由CDN-OR提供;它们都是一样的东西。现在CDN只提供任何类型的文件,包括我的PHP页面。谷歌不知何故也爬上了CDN网站;实际上有两个站点-从cdn.example.com和从。考虑到 我没有尝试设置子域或镜像站点。如果发生这种情况,那就是我试图建立CDN的副作用 CDN是某种web服务器,不一定是Apache。我不知道那是什么类型的服务器 CDN上没有请求处理。它只是从源服务器获取内容。我认为,您不能将自定义文件放在CDN上;它只是从源服务器获取内容。需要
与此相关的问题,例如,您可以将robots.txt放在根目录中,以便将其与cdn.-yourdomain-.com/robots.txt一起提供。在此robots.txt中,您可以使用以下设置禁止所有爬虫
User-agent: *
Disallow: /
如果你正在争取SEO的位置,也许rel=canonical解决方案应该会有所帮助:包括在页面的标题部分。详情请浏览