Python 如何获取包含特定文本的类或ID的scrape DIV
我从一个网站上抓取了一些HTMLPython 如何获取包含特定文本的类或ID的scrape DIV,python,python-3.x,beautifulsoup,Python,Python 3.x,Beautifulsoup,我从一个网站上抓取了一些HTML <div> <div id="content1"> </div> <div id="content3"> </div> <div id="content22"> </div> </div> 如何迭代ID以内容开始的所有div?最简单的方法是使用: ^=语法指定id属性值应以content开头 使用传入的id参数可以得到与以下相同的结果: 演示: >>
<div>
<div id="content1">
</div>
<div id="content3">
</div>
<div id="content22">
</div>
</div>
如何迭代ID以
内容开始的所有div?最简单的方法是使用:
^=
语法指定id
属性值应以content
开头
使用传入的id
参数可以得到与以下相同的结果:
演示:
>>来自bs4导入组
>>>样本='''\
...
...
...
...
...
...
...
...
... '''
>>>汤=美汤(样本)
>>>soup.select('div[id^=content]”)
[
,
,
]
>>>soup.find_all('div',id=re.compile('^content'))
[
,
,
]
soup.select('div[id^=content]')
import re
soup.find_all('div', id=re.compile('^content'))
>>> from bs4 import BeautifulSoup
>>> sample = '''\
... <div>
... <div id="content1">
... </div>
... <div id="content3">
... </div>
... <div id="content22">
... </div>
... </div>
... '''
>>> soup = BeautifulSoup(sample)
>>> soup.select('div[id^=content]')
[<div id="content1">
</div>, <div id="content3">
</div>, <div id="content22">
</div>]
>>> soup.find_all('div', id=re.compile('^content'))
[<div id="content1">
</div>, <div id="content3">
</div>, <div id="content22">
</div>]