Python 检测是否存在相同的url
我目前正在使用Python进行一个项目,我遇到了一个小问题 假设我有两个URL:Python 检测是否存在相同的url,python,python-2.7,Python,Python 2.7,我目前正在使用Python进行一个项目,我遇到了一个小问题 假设我有两个URL: URL1='www.google.com' URL2='google.com/' 显然这两个URL是等价的:它们都指向同一个页面。然而,我的字符串比较的简单实现无法检测到这一点。是否有任何现有方法可以检测两个URL是否引用同一网页 (第一次发布,我没有发现任何类似的内容;如果已经有人问过类似的问题,我深表歉意。)您可以在不同的组件中标记URL,并只测试与您相关的字段。一个有用的python模块是,它将为您执行标记化
'www.google.com'
'google.com/'
(第一次发布,我没有发现任何类似的内容;如果已经有人问过类似的问题,我深表歉意。)您可以在不同的组件中标记URL,并只测试与您相关的字段。一个有用的python模块是,它将为您执行标记化。然后,您可以检查域+TLD是否相同,然后转到子域。然后,您可以决定删除比较中的一些子域(如“www”)。执行HTTP GET并比较结果中的头怎么样?那么“/”之后的事情呢?再想想,我不确定这会不会奏效……我可以做一些我想象得到的事情;但我认为它会产生更大的运行时间。我已经在数千个URL上运行了这个程序(都是在一个.txt文件中提供的),我不认为这两个URL是等价的
www.google.com
和google.com
可以生成两个不同的页面(碰巧后者返回HTTP 301响应以重定向到前者;但是,另一个站点可能不会这样做)。@POB:it“出于所有目的”