Python 从txt文件清除大量URL参数
我有一个类似于的url列表文件Python 从txt文件清除大量URL参数,python,bash,curl,wget,Python,Bash,Curl,Wget,我有一个类似于的url列表文件 Www.dell.com/any=abc&anyone=bcd Www.google.co.in Www.yahoo.com/abc=fgh 我想清理一下,因为它们只显示等号以下的数据=。例如,上面显示的行应该输出 Www.dell.com/any= Www.dell.com/any=abc&anyone= Www.google.co.in Www.yahoo.com/abc= 对于python或bash等中的代码清
Www.dell.com/any=abc&anyone=bcd
Www.google.co.in
Www.yahoo.com/abc=fgh
我想清理一下,因为它们只显示等号以下的数据=
。例如,上面显示的行应该输出
Www.dell.com/any=
Www.dell.com/any=abc&anyone=
Www.google.co.in
Www.yahoo.com/abc=
对于python或bash等中的代码清理,有任何脚本建议吗?使用只将标记#1添加到结果文件中的正则表达式逐行编写脚本 Regex在第一天之前要把所有的事情都搞定=
^([^=]*=)
编辑您的第二个示例中有几个参数与文本不完全匹配,我将重点放在您的文本上,以删除第一个示例之后的所有内容=
否则,将[^=]替换为。把所有的东西都拿到最后=
url = re.sub(r'^(.*?=).*$', r'\1', url)
这将为您提供url,直到第一个“=”。删除“?”标记以获取url,直到最后一个“=” 在Python中,您可以像这样循环并剥离行
for l in urls:
print l.split('=')[0]
等号对于查询字符串很重要,并且这些字符串带有问号。目前还不清楚你的最终目标是什么,但将关键点和价值观分开似乎是个坏主意