Python 如何获取包含特定文本的类或ID的scrape DIV

Python 如何获取包含特定文本的类或ID的scrape DIV,python,python-3.x,beautifulsoup,Python,Python 3.x,Beautifulsoup,我从一个网站上抓取了一些HTML <div> <div id="content1"> </div> <div id="content3"> </div> <div id="content22"> </div> </div> 如何迭代ID以内容开始的所有div?最简单的方法是使用: ^=语法指定id属性值应以content开头 使用传入的id参数可以得到与以下相同的结果: 演示: >>

我从一个网站上抓取了一些HTML

<div>
 <div id="content1">
 </div>
 <div id="content3">
 </div>
 <div id="content22">
 </div>
</div>


如何迭代ID以
内容开始的所有div?

最简单的方法是使用:

^=
语法指定
id
属性值应以
content
开头

使用传入的
id
参数可以得到与以下相同的结果:

演示:

>>来自bs4导入组
>>>样本='''\
... 
...  
...  
...  
...  
...  
...  
... 
... '''
>>>汤=美汤(样本)
>>>soup.select('div[id^=content]”)
[
, 
, 
]
>>>soup.find_all('div',id=re.compile('^content'))
[
, 
, 
]
soup.select('div[id^=content]')
import re

soup.find_all('div', id=re.compile('^content'))
>>> from bs4 import BeautifulSoup
>>> sample = '''\
... <div>
...  <div id="content1">
...  </div>
...  <div id="content3">
...  </div>
...  <div id="content22">
...  </div>
... </div>
... '''
>>> soup = BeautifulSoup(sample)
>>> soup.select('div[id^=content]')
[<div id="content1">
</div>, <div id="content3">
</div>, <div id="content22">
</div>]
>>> soup.find_all('div', id=re.compile('^content'))
[<div id="content1">
</div>, <div id="content3">
</div>, <div id="content22">
</div>]