Apache 不允许对CDN站点进行爬网

Apache 不允许对CDN站点进行爬网,apache,seo,cdn,Apache,Seo,Cdn,所以我有一个网站 JS/CSS/图像由CDN-OR提供;它们都是一样的东西。现在CDN只提供任何类型的文件,包括我的PHP页面。谷歌不知何故也爬上了CDN网站;实际上有两个站点-从cdn.example.com和从。考虑到 我没有尝试设置子域或镜像站点。如果发生这种情况,那就是我试图建立CDN的副作用 CDN是某种web服务器,不一定是Apache。我不知道那是什么类型的服务器 CDN上没有请求处理。它只是从源服务器获取内容。我认为,您不能将自定义文件放在CDN上;它只是从源服务器获取内容。需要

所以我有一个网站

JS/CSS/图像由CDN-OR提供;它们都是一样的东西。现在CDN只提供任何类型的文件,包括我的PHP页面。谷歌不知何故也爬上了CDN网站;实际上有两个站点-从cdn.example.com和从。考虑到

  • 我没有尝试设置子域或镜像站点。如果发生这种情况,那就是我试图建立CDN的副作用
  • CDN是某种web服务器,不一定是Apache。我不知道那是什么类型的服务器
  • CDN上没有请求处理。它只是从源服务器获取内容。我认为,您不能将自定义文件放在CDN上;它只是从源服务器获取内容。需要放在CDN上的任何内容都来自源服务器

  • 如何防止PHP页面爬行

  • 我应该允许从cdn.example.com或example.com抓取图像吗?HTML中图像的链接都指向cdn.example.com。如果我只允许从example.com抓取图像,那么实际上就没有什么可抓取的了——没有指向此类图像的链接。如果我允许从cdn.example.com抓取图像,那么它不会泄露SEO的好处吗
  • 根据stackoverflow的回答,我考虑了一些备选方案:

  • 编写自定义robot_cdn.txt并基于HTTP_主机为该自定义robot_cdn.txt提供服务。这是根据堆栈溢出上的许多答案得出的
  • 从子域提供一个新的robots.txt。正如我上面解释的,我不认为CDN可以像子域一样对待
  • 当HTTP_主机为cdn.example.com时,Do 301重定向到www.example.com
  • 建议


    与此相关的问题,例如,

    您可以将robots.txt放在根目录中,以便将其与cdn.-yourdomain-.com/robots.txt一起提供。在此robots.txt中,您可以使用以下设置禁止所有爬虫

    User-agent: *
    Disallow: /
    

    如果你正在争取SEO的位置,也许rel=canonical解决方案应该会有所帮助:包括在页面的标题部分。详情请浏览