Python BeautifulSoup使用“获取”文本分隔值&书信电报;br>&引用;

Python BeautifulSoup使用“获取”文本分隔值&书信电报;br>&引用;,python,python-3.x,beautifulsoup,Python,Python 3.x,Beautifulsoup,HTML: 结果: 第1行详细信息1 第2行详情2 第3行细节3 第4行详情4 第5行详图5 如何检索变量中的“第1行”和“详细信息1”?如果标签的格式始终为,则可以使用简单的拆分: for index in soup.select("col"): print(index.get_text()) the_list=[] _详细信息=[] 对于汤中的索引,选择(“a.col”): my_text=index.get_text().split(“”) _list.app

HTML:

结果:

第1行详细信息1

第2行详情2

第3行细节3

第4行详情4

第5行详图5


如何检索变量中的“第1行”和“详细信息1”?

如果标签的格式始终为

,则可以使用简单的拆分:

for index in soup.select("col"):
    print(index.get_text())
the_list=[]
_详细信息=[]
对于汤中的索引,选择(“a.col”):
my_text=index.get_text().split(“
”) _list.append(我的_文本[0]) _details.append(我的_文本[1]) 打印(列表)#[‘列表1’、‘列表2’、‘列表3’、‘列表4’、‘列表5’] 打印(细节)#[‘细节1’、‘细节2’、‘细节3’、‘细节4’、‘细节5’]

编辑

要管理其他格式的

标记,例如



,可以使用regex:

the_lists = []
the_details = []

for index in soup.select("a.col"):
    my_text = index.get_text().split('< br>')
    the_lists.append(my_text[0])
    the_details.append(my_text[1])
    
print(the_lists) # ['List 1', 'List 2', 'List 3', 'List 4', 'List 5'] 
print(the_details) # ['detail 1', 'detail 2', 'detail 3', 'detail 4', 'detail 5']
the_list=[]
_详细信息=[]
对于汤中的索引,选择(“a.col”):
text=re.sub(“,”
”,index.get\u text()) my_text=text.split(“
”) _list.append(我的_文本[0]) _details.append(我的_文本[1]) 打印(_列表) 打印(详细信息)
你确定你的

HTML
中看起来像

吗?发布HTML代码,但我看不到我问题上的“
”标记。因此,添加备用文件仅用于显示。初始HTML缺少标记。带空格的“
”有效,但不带空格的“
”无法拆分。在您的示例中,您没有
,只有
。不过,您可以使用regex来管理它。请参阅更新
the_lists = []
the_details = []

for index in soup.select("a.col"):
    my_text = index.get_text().split('< br>')
    the_lists.append(my_text[0])
    the_details.append(my_text[1])
    
print(the_lists) # ['List 1', 'List 2', 'List 3', 'List 4', 'List 5'] 
print(the_details) # ['detail 1', 'detail 2', 'detail 3', 'detail 4', 'detail 5']
the_lists = []
the_details = []

for index in soup.select("a.col"):
    text = re.sub("<(\s*)br(\s*)>","<br>",index.get_text())
    my_text = text.split('<br>')
    the_lists.append(my_text[0])
    the_details.append(my_text[1])
    
print(the_lists)    
print(the_details)