Url rewriting 检测URL重写(SEO URL)

Url rewriting 检测URL重写(SEO URL),url-rewriting,web-crawler,seo,Url Rewriting,Web Crawler,Seo,客户端如何检测服务器是否正在使用mod_rewrite实现“seo友好URL” 例如: 普通url: http://somedomain.com/index.php?type=pic&id=1 搜索引擎优化友好网址: http://somedomain.com/pic/1由于mod_rewrite在服务器端运行,因此客户端无法确定是否检测到它 客户端唯一能做的就是寻找一些线索: HTML是动态生成的,并且在调用之间会发生变化吗?然后/pic/1需要由一些脚本处理,很可能不是真正的URL 就像前

客户端如何检测服务器是否正在使用mod_rewrite实现“seo友好URL”

例如:

普通url:
http://somedomain.com/index.php?type=pic&id=1

搜索引擎优化友好网址:
http://somedomain.com/pic/1

由于mod_rewrite在服务器端运行,因此客户端无法确定是否检测到它

客户端唯一能做的就是寻找一些线索:

  • HTML是动态生成的,并且在调用之间会发生变化吗?然后/pic/1需要由一些脚本处理,很可能不是真正的URL
  • 就像前面说的:有
    标签吗?然后,网站喜欢告诉搜索引擎,它应该从多个相同内容的URL中选择哪个
  • 修改URL的部分内容,并查看是否有404。在
    /pic/1
    中,我将修改“1”。
    如果没有
    mod_rewrite
    它将返回404。如果是,错误由服务器端脚本语言处理,可以返回404,但在大多数情况下,打印错误时会返回200页

    • 搜索引擎优化方面通常在URL中的单词上,因此您可能可以忽略任何数字部分。通常,SEO应用于一组相似的内容,例如具有公共基本URL的内容,例如:

      Base
      www.domain.ext/article
      ,完整的URL示例包括:

      • www.domain.ext/article/2011/06/15/man-bites-dog
      • www.domain.ext/article/2010/12/01/beauty-not-just-skin-deep
      这样,URL的SEO方面就是后缀。要应用的算法是在公共基分配“数据类型”(数字、文本、字母数字)后对每个“文件夹”进行典型化,然后按如下方式评分:

    • HTTP响应代码为200:应该是明显的,但是您可以得到一个404www.domain.ext/errors/file not found,它将通过列出的其他检查
    • 非数字,带分隔符,拼写检查:分隔符通常是破折号、下划线或空格。记下每个单词并进行拼写检查。如果单词有效-包括专有名称
    • 页面上经过拼写检查的URL文本如果文本通过拼写检查,请分析页面内容,查看其是否出现在页面上
    • 标签内页面上的拼写检查URL文本:如果Previor为true,则再次标记整个文本是否位于HTML标签内
    • 标记很重要:如果prior为true且标记为
      标记 通常使用这种方法,您最多可以得到5分,除非URL中的多个文件夹符合标准,值越高越好。现在,您可以使用一种方法来改进这一点,该方法使用上述方法对URL进行特征化(即检测某些现象的发生),并提出一些其他巧妙的特征化方法。但是,你必须训练算法,这可能不值得


      现在,根据您的示例,您还希望捕获这样的情况:URL被设计为爬虫将索引,因为查询参数现在是URL的一部分。在这种情况下,您仍然可以对后缀文件夹进行典型化,以获得数据类型的模式——在您的示例中,公共前缀总是跟在整数后面——并将这些URL评分为SEO友好型

      我想您可能会使用curl变体

      您可以尝试发送相同的请求,但具有不同的“用户代理”值


      i、 e.一次使用用户代理“Mozzilla/5.0”发送请求,第二次使用用户代理“Googlebot”发送请求如果服务器正在为网络爬虫做一些特殊的事情,那么今天的框架和它们提供的url路由应该会有不同的响应,我甚至不需要使用mod_rewrite来创建友好的url,所以我怀疑你能检测到任何东西。我会为所有访问者创建这样的URL,不管是不是爬虫。也许你可以欺骗一些机器人头,假装你是一个已知的爬虫,看看是否有任何变化。不知道这有多合法。

      对于动态url的模式,最好对其他副本使用
      标记

      你是在写蜘蛛还是在写网站?或者更确切地说,有人如何编写蜘蛛来检测seo友好的url。是的,除了像3个人使用这种方法,谷歌就是其中之一+1无论如何。