基于条件分离列表项-Python_Python_Python 3.x_List_Loops

基于条件分离列表项-Python

python python-3.x list loops

基于条件分离列表项-Python,python,python-3.x,list,loops,Python,Python 3.x,List,Loops,所以我有一个不同目录结构的URL列表；即： xyz.com/1/ xyz.com/2/ xyz.com/3/ xyz.com/4/ xyz.com/5/ abc.com/6/ abc.com/7/ abc.com/8/ abc.com/9/ abc.com/10/ 我需要在python中遍历这个列表并按tld（顶级域）分组。我正在使用一个开源python库在循环中提取tld；即： for item in list: registered_domain = tldextract.extr

所以我有一个不同目录结构的URL列表；即：

xyz.com/1/
xyz.com/2/
xyz.com/3/
xyz.com/4/
xyz.com/5/
abc.com/6/
abc.com/7/
abc.com/8/
abc.com/9/
abc.com/10/

我需要在python中遍历这个列表并按tld（顶级域）分组。我正在使用一个开源python库在循环中提取tld；即：

for item in list:
    registered_domain = tldextract.extract(item).registered_domain

我的问题是，在迭代混合URL列表时，如何将具有相同基本tld的所有URL分组到单独的列表中；即：

Output:
    [xyz.com/1/,xyz.com/2/,xyz.com/3/,xyz.com/4/,xyz.com/5/]
    [abc.com/6/,abc.com/7/,abc.com/8/,abc.com/9/,abc.com/10/]

您可以将

collections.defaultdict

与

str.split

组合使用。这将创建一个将域映射到URL的字典

from collections import defaultdict

L = ['xyz.com/1/', 'xyz.com/2/', 'xyz.com/3/', 'xyz.com/4/', 'xyz.com/5/',
     'abc.com/6/', 'abc.com/7/', 'abc.com/8/', 'abc.com/9/', 'abc.com/10/']

d = defaultdict(list)

for url in L:
    d[url.split('/', 1)[0]].append(url)
    # alternatively:
    # d[tldextract.extract(url).registered_domain].append(url)

结果

print(d)

defaultdict(list,
            {'xyz.com': ['xyz.com/1/', 'xyz.com/2/', 'xyz.com/3/',
                         'xyz.com/4/', 'xyz.com/5/'],
             'abc.com': ['abc.com/6/', 'abc.com/7/', 'abc.com/8/',
                         'abc.com/9/', 'abc.com/10/']})

我建议制作一个字典，将顶级域映射到URL列表。是的，我道歉。（上面更正）：在我的测试中，我能够将它映射到zip（list，registered_list）中的dict ie{list:registered_list for（list，registered_list）}但是我仍然难以将它们划分为元组。我知道这相对简单，但给我一个困难的时间。有些东西我没有看到，但在经历了很多挫折之后，我想我会问的。