Python 作为开发工具的一部分,我必须仅从url中提取flipkart.com或flipkarthttp://www.flipkart.com

Python 作为开发工具的一部分,我必须仅从url中提取flipkart.com或flipkarthttp://www.flipkart.com,python,Python,作为开发工具的一部分,我只需从URLhttp://www.flipkart.com 我将代码编写为: filename = dns.name.from_text(url).split(3)[1].to_text(omit_final_dot=True) 我正在获取输出flipkart.com\010。如何使用Python提取?该软件包将帮助您: from tld import get_tld from tld.utils import update_tld_names update_tld_n

作为开发工具的一部分,我只需从URL
http://www.flipkart.com

我将代码编写为:

filename = dns.name.from_text(url).split(3)[1].to_text(omit_final_dot=True)
我正在获取输出
flipkart.com\010
。如何使用Python提取?

该软件包将帮助您:

from tld import get_tld
from tld.utils import update_tld_names
update_tld_names()

print get_tld("http://www.flipkart.com") 
输出

flipkart.com


使用标准库模块:


这将返回一个包含6个组件的元组;对应于URL的一般结构:
scheme://netloc/path;参数?查询#片段

发生以下错误-TldDomainNotFound:域www.flipkart.com与任何现有TLD名称不匹配!
In [72]: from urlparse import urlparse

In [73]: flipkart = urlparse("http://www.flipkart.com/lenovo-a6000/p/itme3763q9phgbpn?q=Lenovo A6000&as=on&as- show=on&otracker=start&as-pos=p_1_lenovo&pid=MOBE3762KWZZYZHZ")

In [74]: flipkart.netloc
Out[74]: 'www.flipkart.com'

In [75]: flipkart
Out[75]: ParseResult(scheme='http', netloc='www.flipkart.com', path='/lenovo-a6000/p/itme3763q9phgbpn', params='', query='q=Lenovo A6000&as=on&as- show=on&otracker=start&as-pos=p_1_lenovo&pid=MOBE3762KWZZYZHZ', fragment='')