Web scraping 当没有下一个兄弟姐妹时,如何将目标文本设置为目标文本?
我试图用BeautifulSoup来刮取动态生成的页面,有时我会得到松散的文本,有时我不会 如何提取下面的松散文本,我尝试使用下一个同级,但文本不包含在任何标记中Web scraping 当没有下一个兄弟姐妹时,如何将目标文本设置为目标文本?,web-scraping,beautifulsoup,Web Scraping,Beautifulsoup,我试图用BeautifulSoup来刮取动态生成的页面,有时我会得到松散的文本,有时我不会 如何提取下面的松散文本,我尝试使用下一个同级,但文本不包含在任何标记中 <div class="div1"> <table class="table1"></table> <ul></ul> Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod temp
<div class="div1">
<table class="table1"></table>
<ul></ul>
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt
</div>
Lorem ipsum dolor sit amet,是一位杰出的职业经理人,他是一位临时雇员
您可以将css选择器与div.div1 ul
一起使用,并匹配
html_doc=”“”
Lorem ipsum dolor sit amet,是一位杰出的职业经理人,他是一位临时雇员
"""
从bs4导入BeautifulSoup
result\u page=BeautifulSoup(html\u doc,'html.parser')
对于结果页面中的文本,选择(“div.div1 ul”):
打印(text.next\u sibling.strip())
html_doc = """
<div class="div1">
<table class="table1"></table>
<ul></ul>
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt
</div>
"""
from bs4 import BeautifulSoup
result_page = BeautifulSoup(html_doc, 'html.parser')
for text in result_page.select("div.div1 ul"):
print(text.next_sibling.strip())