Python 检测是否存在相同的url

Python 检测是否存在相同的url,python,python-2.7,Python,Python 2.7,我目前正在使用Python进行一个项目,我遇到了一个小问题 假设我有两个URL: URL1='www.google.com' URL2='google.com/' 显然这两个URL是等价的:它们都指向同一个页面。然而,我的字符串比较的简单实现无法检测到这一点。是否有任何现有方法可以检测两个URL是否引用同一网页 (第一次发布,我没有发现任何类似的内容;如果已经有人问过类似的问题,我深表歉意。)您可以在不同的组件中标记URL,并只测试与您相关的字段。一个有用的python模块是,它将为您执行标记化

我目前正在使用Python进行一个项目,我遇到了一个小问题

假设我有两个URL:

  • URL1=
    'www.google.com'
  • URL2=
    'google.com/'
  • 显然这两个URL是等价的:它们都指向同一个页面。然而,我的字符串比较的简单实现无法检测到这一点。是否有任何现有方法可以检测两个URL是否引用同一网页


    (第一次发布,我没有发现任何类似的内容;如果已经有人问过类似的问题,我深表歉意。)

    您可以在不同的组件中标记URL,并只测试与您相关的字段。一个有用的python模块是,它将为您执行标记化。然后,您可以检查域+TLD是否相同,然后转到子域。然后,您可以决定删除比较中的一些子域(如“www”)。

    执行HTTP GET并比较结果中的头怎么样?那么“/”之后的事情呢?再想想,我不确定这会不会奏效……我可以做一些我想象得到的事情;但我认为它会产生更大的运行时间。我已经在数千个URL上运行了这个程序(都是在一个.txt文件中提供的),我不认为这两个URL是等价的
    www.google.com
    google.com
    可以生成两个不同的页面(碰巧后者返回HTTP 301响应以重定向到前者;但是,另一个站点可能不会这样做)。@POB:it“出于所有目的”