Python BeautifulSoup使用“获取”文本分隔值&书信电报;br>&引用;
HTML: 结果: 第1行详细信息1 第2行详情2 第3行细节3 第4行详情4 第5行详图5Python BeautifulSoup使用“获取”文本分隔值&书信电报;br>&引用;,python,python-3.x,beautifulsoup,Python,Python 3.x,Beautifulsoup,HTML: 结果: 第1行详细信息1 第2行详情2 第3行细节3 第4行详情4 第5行详图5 如何检索变量中的“第1行”和“详细信息1”?如果标签的格式始终为,则可以使用简单的拆分: for index in soup.select("col"): print(index.get_text()) the_list=[] _详细信息=[] 对于汤中的索引,选择(“a.col”): my_text=index.get_text().split(“”) _list.app
如何检索变量中的“第1行”和“详细信息1”?如果标签的格式始终为
,则可以使用简单的拆分:
for index in soup.select("col"):
print(index.get_text())
the_list=[]
_详细信息=[]
对于汤中的索引,选择(“a.col”):
my_text=index.get_text().split(“
”)
_list.append(我的_文本[0])
_details.append(我的_文本[1])
打印(列表)#[‘列表1’、‘列表2’、‘列表3’、‘列表4’、‘列表5’]
打印(细节)#[‘细节1’、‘细节2’、‘细节3’、‘细节4’、‘细节5’]
编辑 要管理其他格式的
标记,例如
,可以使用regex:
the_lists = []
the_details = []
for index in soup.select("a.col"):
my_text = index.get_text().split('< br>')
the_lists.append(my_text[0])
the_details.append(my_text[1])
print(the_lists) # ['List 1', 'List 2', 'List 3', 'List 4', 'List 5']
print(the_details) # ['detail 1', 'detail 2', 'detail 3', 'detail 4', 'detail 5']
the_list=[]
_详细信息=[]
对于汤中的索引,选择(“a.col”):
text=re.sub(“,”
”,index.get\u text())
my_text=text.split(“
”)
_list.append(我的_文本[0])
_details.append(我的_文本[1])
打印(_列表)
打印(详细信息)
你确定你的
在HTML
中看起来像
吗?发布HTML代码,但我看不到我问题上的“”标记。因此,添加备用文件仅用于显示。初始HTML缺少标记。带空格的“
”有效,但不带空格的“
”无法拆分。在您的示例中,您没有
,只有
。不过,您可以使用regex来管理它。请参阅更新
the_lists = []
the_details = []
for index in soup.select("a.col"):
my_text = index.get_text().split('< br>')
the_lists.append(my_text[0])
the_details.append(my_text[1])
print(the_lists) # ['List 1', 'List 2', 'List 3', 'List 4', 'List 5']
print(the_details) # ['detail 1', 'detail 2', 'detail 3', 'detail 4', 'detail 5']
the_lists = []
the_details = []
for index in soup.select("a.col"):
text = re.sub("<(\s*)br(\s*)>","<br>",index.get_text())
my_text = text.split('<br>')
the_lists.append(my_text[0])
the_details.append(my_text[1])
print(the_lists)
print(the_details)