Python 从特定分隔符拆分_Python_Parsing_Url

Python 从特定分隔符拆分

python parsing url

Python 从特定分隔符拆分,python,parsing,url,Python,Parsing,Url,如何删除一个URL像这样的结果：www.facebook.com 我试过这种方法，但不起作用： line.split('/', 2)[2] 我的问题可能是两个斜杠//和一些URL从www字符串开始感谢您的帮助，Adia您可能想看看Python的模块最好的办法可能是从正则表达式返回服务器部件，即 \/[a-z0-9\-\.]*[a-zA-Z0-9\-]+\.[a-z]{2,3}\/ 包括www.facebook.com、facebook.com、some-domain.tv、www.som

如何删除一个URL像这样的结果：

www.facebook.com

我试过这种方法，但不起作用：

line.split('/', 2)[2]

我的问题可能是两个斜杠//和一些URL从www字符串开始

感谢您的帮助，Adia

您可能想看看Python的模块

最好的办法可能是从正则表达式返回服务器部件，即

\/[a-z0-9\-\.]*[a-zA-Z0-9\-]+\.[a-z]{2,3}\/

包括www.facebook.com、facebook.com、some-domain.tv、www.some-domain.net等

注意：头斜杠和尾斜杠是正则表达式的一部分，而不是正则表达式分隔符。

请尝试：

line.split("//", 1)[-1].split("/", 1)[0]

我会：

ch[7 if ch[0:7]=='http://' else 0:].partition('/')[0]

我不确定它对你遇到的所有情况都有效

此外：

是的，最好使用适当的工具来执行常见任务。请注意，有些URL“以www字符串开头”。如果缺少前导的“http://”，urlparse将无法解析此内容。@Paul McGuire:如何才能对评论进行投票？我想投你的一票s@Adia：«如何删除像http://www.facebook.com/pages/create.php»和«是的，实际上有些URL没有http://»这样的URL是矛盾的。所以格里法顿对你的问题给出了准确的答案，对你的问题给出了错误的答案。但是我不会投任何人的反对票。@eyquem:对不起，如果我把任何人弄糊涂了。facebook URL只是一个例子，在我正在处理的文件中，有更多的URL具有各种域和结构。不管怎样，从所有的帖子，现在我知道了如何解决这个问题。谢谢大家。可能的重复不是完全重复，我们应该解决如何处理“从www字符串开始”的URL缺少的“http://”。仅仅使用urlparse并不能解决这一问题。可能存在重复的

ch[7 if ch[0:7]=='http://' else 0:].partition('/')[0]

ch[(ch[0:7]=='http://')*7:].partition('/')[0]