Javascript 将URL格式化为通用模式
我正在用它来抓取网页。Javascript 将URL格式化为通用模式,javascript,url,web-scraping,Javascript,Url,Web Scraping,我正在用它来抓取网页。 刮取的数据正在存储到数据库中,包括URL。 URL充当唯一键以防止重复数据。 但是,相同的url可能看起来不同: http://stackoverflow.com/questions/ask http://stackoverflow.com/questions/ask#element http://stackoverflow.com/questions/ask/ stackoverflow.com/questions/ask www.stackoverflow
刮取的数据正在存储到数据库中,包括URL。
URL充当唯一键以防止重复数据。
但是,相同的url可能看起来不同:
http://stackoverflow.com/questions/ask
http://stackoverflow.com/questions/ask#element
http://stackoverflow.com/questions/ask/
stackoverflow.com/questions/ask
www.stackoverflow.com/questions/ask
etc.
是否可以通过x光或其他方式检索某种“真实”url,使存储的url看起来始终完全相同?也许,有一些正则表达式(js),可以将任何url转换为通用格式
谢谢你抽出时间 锚定标记很简单,但是如果不比较内容,重定向是无法检测的抱歉,我不明白我想这个主题是关于我需要的功能的:但是我不明白,我可以在哪里找到更多关于这个的信息?你可以试试吗?你可以试试这个模块。